Actualmente estoy aprendiendo modelos bayesianos jerárquicos usando JAGS de R, y también pymc usando Python ( "Métodos Bayesianos para Hackers" ).
Puedo entender algo de esta publicación : "terminarás con una pila de números que parece" como si "hubieras logrado tomar muestras independientes de la complicada distribución que querías saber". Es algo así como puedo dar la probabilidad condicional, luego puedo generar un proceso sin memoria basado en la probabilidad condicional. Cuando genero el proceso el tiempo suficiente, entonces la probabilidad conjunta puede converger, y luego puedo tomar una pila de números al final de la secuencia generada. Es como si tomo muestras independientes de la complicada distribución conjunta. Por ejemplo, puedo hacer histograma y puede aproximar la función de distribución.
Entonces mi problema es, ¿necesito demostrar si un MCMC converge para un determinado modelo? Estoy motivado a saber esto porque anteriormente aprendí el algoritmo EM para GMM y LDA (modelos gráficos). Si solo puedo usar el algoritmo MCMC sin probar si converge, entonces puede ahorrar mucho más tiempo que EM. Como tendré que calcular la función de probabilidad de registro esperada (tendré que calcular la probabilidad posterior) y luego maximizar la probabilidad de registro esperada. Aparentemente es más engorroso que el MCMC (solo necesito formular la probabilidad condicional).
También me pregunto si la función de probabilidad y la distribución previa son conjugadas. ¿Significa que el MCMC debe converger? Me pregunto sobre las limitaciones de MCMC y EM.
fuente
Respuestas:
EM es una técnica de optimización: dada una probabilidad con variables latentes útiles, devuelve un máximo local, que puede ser un máximo global dependiendo del valor inicial.
MCMC es un método de simulación: dada una probabilidad con o sin variables latentes, y antes, produce una muestra que se distribuye aproximadamente desde la distribución posterior. Los primeros valores de esa muestra generalmente dependen del valor inicial, lo que significa que a menudo se descartan como etapa de quemado (o calentamiento).
Cuando esta muestra se utiliza para evaluar integrales asociadas con la distribución posterior [la gran mayoría de los casos], las propiedades de convergencia son esencialmente las mismas que las de una aproximación iid Monte Carlo, en virtud del teorema ergódico.
Si se necesita más, es decir, una garantía de que es una muestra del posterior , algunas técnicas de evaluación de convergencia están disponibles, por ejemplo en el paquete R CODA . Teóricamente, las herramientas que aseguran la convergencia están probablemente fuera de su alcance. Por ejemplo, muestreo perfecto o métodos de renovación .(xt,…,xt+T) π(x|D)
fuente