Relación entre Bayes variacional y EM

26

Leí en alguna parte que el método Variational Bayes es una generalización del algoritmo EM. De hecho, las partes iterativas de los algoritmos son muy similares. Para probar si el algoritmo EM es una versión especial de Variational Bayes, probé lo siguiente:

  1. Y son datos,X es la colección de variables latentes yΘ son los parámetros. En Variational Bayes podemos hacer una aproximación tal queP(X,Θ|Y)QX(X)QΘ(Θ) . DondeQ s son distribuciones más simples y manejables.

  2. Dado que el algoritmo EM encuentra una estimación puntual MAP, pensé que Bayes Variacionales puede converger a EM si uso una función Delta tal que: QΘ1(Θ)=δΘ1(Θ) . Θ1 es la primera estimación de los parámetros, como se suele hacer en EM.

  3. Cuando se da, Q 1 X ( X ) que minimiza el KL divergencia se encuentra por la fórmula Q 1 X ( X ) = exp ( E delta Θ 1 [ ln P ( X , Y , Θ ) ] )QΘ1(Θ)=δΘ1(Θ)QX1(X) La fórmula anterior se simplifica aQ 1 X (X)=P(X|Θ1,Y), este paso resulta ser el ¡equivalente al paso Expectativa del algoritmo EM!

    QX1(X)=exp(EδΘ1[lnP(X,Y,Θ)])exp(EδΘ1[lnP(X,Y,Θ)])dX
    QX1(X)=P(X|Θ1,Y)

Pero no puedo derivar el paso de Maximización como la continuación de esto. En el siguiente paso necesitamos calcular y de acuerdo con la regla de iteración de Bayes Variacional esto es:QΘ2(Θ)

QΘ2(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘ

¿Los algoritmos VB y EM están realmente conectados de esta manera? ¿Cómo podemos derivar EM como un caso especial de Bayes Variacionales? ¿Es cierto mi enfoque?

Ufuk Can Bicici
fuente
¿Dónde leíste que el algoritmo EM encuentra una estimación MAP? La relación entre inferencia variacional y EM se aclarará una vez que comprenda la opinión de EM presentada en este documento por Neal & Hinton (1998) . Vea también mi respuesta aquí .
Lucas
P(X|Θt,Y)ΘtΘt+1=argmaxΘ<lnP(X,Y,Θ)>P(X|Θt,Y)
1
Disculpas, no leí tu pregunta con suficiente atención. Creo que su paso de maximización para calcular QΘ2QΘ2Θ2QΘ2(Θ)=δΘ2(Θ)
En la página 21 de la presentación encontré cs.cmu.edu/~tom/10-702/Zoubin-702.pdf, se mostró una comparación de EM y VB, de manera similar al usar la función Dirac. Pero cómo se reduce VB a EM no se da.
Ufuk Can Bicici

Respuestas:

20

Tu enfoque es correcto. EM es equivalente a VB bajo la restricción de que el posterior aproximado paraΘΘ

QΘ(Θ)=δ(ΘΘ)
KL(Q||P)=QX(X)QΘ(Θ)lnQX(X)QΘ(Θ)P(X,Y,Θ)dXdΘ=QX(X)lnQX(X)QΘ(Θ)P(X,Y,Θ)dX
QX(X)Θ

Por supuesto, si realmente evaluaras la divergencia KL, sería infinito. Pero eso no es un problema si considera que la función delta es un límite.

Tom Minka
fuente
Técnicamente, maximizando EQx[lnP(X,Y,Θ)]=EQx[lnP(X,Y|Θ)]+lnP(Θ)ΘP(Θ)
Yibo Yang