Inferencia variacional, la divergencia KL requiere una verdadera

12

A mi entender (muy modesto) de la inferencia variacional, uno intenta aproximar una distribución desconocida al encontrar una distribución que optimice lo siguiente:pq

KL(p||q)=xp(x)logp(x)q(x)

Cada vez que invierto tiempo en comprender la inferencia variacional sigo aplicando esta fórmula y no puedo evitar sentir que me estoy perdiendo el punto. Parece que necesito saber para calcular . Pero el punto era que no conocía esta distribución .pKL(p||q)p

Es este punto exacto el que me ha estado molestando cada vez que intento leer algo variacional. ¿Qué me estoy perdiendo?

EDITAR :

Agregaré algunos comentarios adicionales aquí como resultado de la respuesta de @wij, intentaré ser más preciso.

En los casos que me interesan, de hecho parece perfectamente razonable considerar que se cumple lo siguiente;

p(θ|D)=p(D|θ)p(θ)p(D)p(D|θ)p(θ)

En este caso, podría saber cómo debería verse proporcionalmente porque habría elegido un modelo para y . ¿Sería correcto decir que necesito elegir una distribución familiar [digamos gaussiana] de modo que ahora pueda estimar . Parece que en este caso estoy tratando de adaptar una gaussiana que esté cerca de la no normalizada . ¿Es esto correcto?pp(D|θ)p(θ)qKL(p(θ|D)||q)p(D|θ)p(θ)

Si es así, parece que estoy asumiendo que mi posterior es una distribución normal y simplemente trato de encontrar valores probables para esta distribución con respecto a la divergencia .KL

Vincent Warmerdam
fuente

Respuestas:

7

Tengo la sensación de que tratas a como un objeto completamente desconocido. No creo que este sea el caso. Esto es probablemente lo que te perdiste.p

Digamos que observamos (iid) y queremos inferir donde asumimos que y para son especificados por el modelo. Por la regla de Bayes,Y={yi}i=1np(x|Y)p(y|x)p(x)xRd

p(x|Y)=p(x)p(Y)p(Y|x)=p(x)p(Y)i=1np(yi|x).

La primera observación es que sabemos algo sobre la distribución posterior . Se da como arriba. Por lo general, simplemente no conocemos su normalizador . Si la probabilidad es muy complicada, entonces terminamos teniendo una distribución complicada .p(x|Y)p(Y)p(y|x)p(x|Y)

La segunda cosa que hace posible hacer inferencia variacional es que hay una restricción en la forma que puede tomar. Sin ninguna restricción, sería que generalmente es intratable. Por lo general, se supone que vive en un subconjunto elegido de la familia exponencial. Por ejemplo, esta podría ser la familia de distribuciones gaussianas totalmente factorizadas, es decir, . Resulta que si este es su conjunto de restricciones, entonces cada componente de viene dado porqargminqKL(p||q)pqqQ={i=1dqi(xi)each qi is a one-dimensional Gaussian}q

qiexp(Ejiqjlogp(x,Y)),

dondeLa fórmula exacta no importa mucho. El punto es que la aproximada se puede encontrar confiando en el conocimiento de la verdadera , y en la suposición de la forma que debe tomar la aproximada .p(x,Y)=p(x)i=1np(yi|x).qpq

Actualizar

Lo siguiente es responder la parte actualizada de la pregunta. Me acabo de dar cuenta de que he estado pensando en . Siempre usaré para la cantidad verdadera, y para una cantidad aproximada. En inferencia variacional o Bayes variacional, viene dado porKL(q||p(x|Y))pqq

q=argminqQKL(q||p(x|Y)).

Con la restricción establecida como anteriormente, la solución es la que se dio anteriormente. Ahora si estás pensando enQ

q=argminqQKL(p(x|Y)||q),

para definido como un subconjunto de la familia exponencial, entonces esta inferencia se llama propagación de expectativa (EP). La solución para en este caso es la de que sus momentos coincidan con los de .Qqp(x|Y)

De cualquier manera, tiene razón al decir que esencialmente intenta aproximar la distribución posterior verdadera en el sentido KL por una distribución obligada a tomar alguna forma.q

wij
fuente
No puedo discutir con esto. Creo que la mayoría de las explicaciones incluyen mi propio brillo sobre esto.
Peadar Coyle