¿Limitaciones de MCMC / EM? MCMC sobre EM?

9

Actualmente estoy aprendiendo modelos bayesianos jerárquicos usando JAGS de R, y también pymc usando Python ( "Métodos Bayesianos para Hackers" ).

Puedo entender algo de esta publicación : "terminarás con una pila de números que parece" como si "hubieras logrado tomar muestras independientes de la complicada distribución que querías saber". Es algo así como puedo dar la probabilidad condicional, luego puedo generar un proceso sin memoria basado en la probabilidad condicional. Cuando genero el proceso el tiempo suficiente, entonces la probabilidad conjunta puede converger, y luego puedo tomar una pila de números al final de la secuencia generada. Es como si tomo muestras independientes de la complicada distribución conjunta. Por ejemplo, puedo hacer histograma y puede aproximar la función de distribución.

Entonces mi problema es, ¿necesito demostrar si un MCMC converge para un determinado modelo? Estoy motivado a saber esto porque anteriormente aprendí el algoritmo EM para GMM y LDA (modelos gráficos). Si solo puedo usar el algoritmo MCMC sin probar si converge, entonces puede ahorrar mucho más tiempo que EM. Como tendré que calcular la función de probabilidad de registro esperada (tendré que calcular la probabilidad posterior) y luego maximizar la probabilidad de registro esperada. Aparentemente es más engorroso que el MCMC (solo necesito formular la probabilidad condicional).

También me pregunto si la función de probabilidad y la distribución previa son conjugadas. ¿Significa que el MCMC debe converger? Me pregunto sobre las limitaciones de MCMC y EM.

DQ_happy
fuente
2
MCMC converge como por definición. En lugar de probarlo, diagnostica la convergencia para verificar si su modelo ha convergido, por ejemplo, math.pku.edu.cn/teachers/xirb/Courses/QR2013/ReadingForFinal/… o people.fas.harvard.edu/~plam/teaching/methods / convergencia / ...n
Tim
3
EM es más rápido, no es Bayesiano (no todos adoran las estadísticas Bayesianas) y en algunos casos tiene menos problemas de identificación (converge a un valor máximo único , mientras que con el enfoque MCMC tiene una distribución completa que podría ser más complicada que la estimación puntual ) etc.
Tim
2
EM se usa para la máxima probabilidad o la máxima estimación a posteriori, pero inicialmente se describió como algoritmo ML y se usa comúnmente en el enfoque ML (ver en.wikipedia.org/wiki/… ).
Tim
1
Incluso si usa EM para la estimación MAP en lugar de ML, para mí no es bayesiano porque trata de caracterizar la distribución posterior, pero solo le proporciona el modo local.
Luca
1
Para mí, el uso de EM no es bayesiano porque le brinda una estimación puntual de sus parámetros de interés y no cuantifica la distribución posterior completa. Con EM y MCMC se puede tener un modelo probabilístico completo con variables aleatorias anteriores, latentes y observadas, pero la inferencia es diferente. MCMC tiene como objetivo caracterizar la distribución posterior completa, mientras que EM no transmite la información de la distribución posterior completa. Para mí, un bayesiano es alguien que usa la distribución posterior para la toma de decisiones. Sin embargo, esto podría ser simplista. También estoy aprendiendo estas cosas.
Luca

Respuestas:

13

EM es una técnica de optimización: dada una probabilidad con variables latentes útiles, devuelve un máximo local, que puede ser un máximo global dependiendo del valor inicial.

MCMC es un método de simulación: dada una probabilidad con o sin variables latentes, y antes, produce una muestra que se distribuye aproximadamente desde la distribución posterior. Los primeros valores de esa muestra generalmente dependen del valor inicial, lo que significa que a menudo se descartan como etapa de quemado (o calentamiento).

Cuando esta muestra se utiliza para evaluar integrales asociadas con la distribución posterior [la gran mayoría de los casos], las propiedades de convergencia son esencialmente las mismas que las de una aproximación iid Monte Carlo, en virtud del teorema ergódico.

Si se necesita más, es decir, una garantía de que es una muestra del posterior , algunas técnicas de evaluación de convergencia están disponibles, por ejemplo en el paquete R CODA . Teóricamente, las herramientas que aseguran la convergencia están probablemente fuera de su alcance. Por ejemplo, muestreo perfecto o métodos de renovación .(xt,,xt+T)π(x|D)

Xi'an
fuente