A mi entender (muy modesto) de la inferencia variacional, uno intenta aproximar una distribución desconocida al encontrar una distribución que optimice lo siguiente:
Cada vez que invierto tiempo en comprender la inferencia variacional sigo aplicando esta fórmula y no puedo evitar sentir que me estoy perdiendo el punto. Parece que necesito saber para calcular . Pero el punto era que no conocía esta distribución .
Es este punto exacto el que me ha estado molestando cada vez que intento leer algo variacional. ¿Qué me estoy perdiendo?
EDITAR :
Agregaré algunos comentarios adicionales aquí como resultado de la respuesta de @wij, intentaré ser más preciso.
En los casos que me interesan, de hecho parece perfectamente razonable considerar que se cumple lo siguiente;
En este caso, podría saber cómo debería verse proporcionalmente porque habría elegido un modelo para y . ¿Sería correcto decir que necesito elegir una distribución familiar [digamos gaussiana] de modo que ahora pueda estimar . Parece que en este caso estoy tratando de adaptar una gaussiana que esté cerca de la no normalizada . ¿Es esto correcto?
Si es así, parece que estoy asumiendo que mi posterior es una distribución normal y simplemente trato de encontrar valores probables para esta distribución con respecto a la divergencia .
fuente