¿Cuándo es útil MCMC?

12

Tengo problemas para comprender en qué situación el enfoque MCMC es realmente útil. Estoy revisando un ejemplo de juguete del libro de Kruschke "Haciendo análisis de datos bayesianos: un tutorial con R y BUGS".

Lo que entendí hasta ahora es que necesitamos una distribución objetivo que sea proporcional a para tener una muestra de P ( θ | D ) . Sin embargo, me parece que una vez que tenemos p ( D | θ ) p ( θ ) solo necesitamos normalizar la distribución para obtener el posterior, y el factor de normalización se puede encontrar fácilmente numéricamente. Entonces, ¿cuáles son los casos cuando esto no es posible?p(D|θ)p(θ)P(θ|D)p(D|θ)p(θ)

Vaaal
fuente
2
Supongamos que no es un escalar, sino que es un vector θ que tiene 10000 dimensiones. θθ
Jan Galkowski
1
Mi respuesta fue un poco breve. Para obtener la constante, necesita calcular . Incluso en el caso escalar, suponga que p ( D | θ ) es realmente inestable, por lo que la integración es difícil de hacer, incluso numéricamente. Entonces es posible que desee utilizar MCMC. p(D|θ)p(θ)p(D|θ)
Jan Galkowski
2
Una advertencia de Alan Sokal: "Monte Carlo es un método extremadamente malo; debe usarse solo cuando todos los métodos alternativos son peores". Luego se embarca en una larga discusión sobre los métodos de MC. stat.unc.edu/faculty/cji/Sokal.pdf
Yair Daon
1
@Yair: Me parece que Sokal está canalizando a Churchill.
Cardenal
1
Cuando nada más funcionará ...
kjetil b halvorsen

Respuestas:

10

La integración de Monte Carlo es una forma de integración numérica que puede ser mucho más eficiente que, por ejemplo, la integración numérica al aproximar el integrando con polinomios. Esto es especialmente cierto en grandes dimensiones, donde las técnicas simples de integración numérica requieren grandes cantidades de evaluaciones de funciones. Para calcular la constante de normalización , podríamos usar muestreo de importancia ,p(D)

p(D)=q(θ)q(θ)p(θ)p(Dθ)dθ1Nnwnp(θn)p(Dθn),

donde y θ n se muestrean a partir de q . Tenga en cuenta que solo necesitamos evaluar la distribución conjunta en los puntos muestreados. Para el q correcto, este estimador puede ser muy eficiente en el sentido de requerir muy pocas muestras. En la práctica, elegir una q adecuadapuede ser difícil, ¡pero aquí es donde MCMC puede ayudar! El muestreo de importancia recocido(Neal, 1998)combina MCMC con muestreo de importancia.wn=1/q(θn)θnqqq

Otra razón por la que MCMC es útil es esta: por lo general, ni siquiera estamos interesados ​​en la densidad posterior de , sino en estadísticas y expectativas resumidas , por ejemplo,θ

p(θD)f(θ)dθ.

Saber generalmente no significa que podamos resolver esta integral, pero las muestras son una forma muy conveniente de estimarlo.p(D)

Finalmente, poder evaluar es un requisito para algunos métodos de MCMC, pero no todos (p. Ej., Murray et al., 2006 ).p(Dθ)p(θ)

Lucas
fuente
Lo siento, pero esto todavía no está claro para mí. Mi pregunta es: si simplemente multiplicamos obtenemos un pdf no normalizado. Al ejecutar MCMC obtenemos una muestra para la cual podemos estimar el pdf no normalizado. Si queremos, podríamos normalizar ambos. Entonces, suponiendo que NO estoy interesado en ninguna estadística resumida, sino solo en las posteriores, ¿por qué usamos MCMC en primer lugar? Como dijiste, algunos métodos MCMC no requieren el cálculo de p ( D | θ ) p ( θ )p(D|θ)p(θ)p(D|θ)p(θ), así que no me estoy refiriendo a esos. Hasta donde yo sé, la mayoría de ellos requieren el cálculo de eso. ¿Cuál es la utilidad de estos métodos?
Vaaal
2
Cuando ejecuta MCMC, obtiene una muestra del pdf normalizado, así que evite calcular la constante de normalización. Y esto es gratis.
Xi'an
2
@Vaaal: su suposición de que "el factor de normalización podría encontrarse fácilmente numéricamente" solo se cumple para distribuciones univariadas simples. Para altas dimensiones , normalizando p ( D | θ ) pθp(Dθ)p(θ)
6

p(θ)f(x|θ)

p(θ|x)p(θ)f(x|θ)

θ

Por el contrario, los métodos de Monte Carlo de la cadena de Markov son más fáciles de ver en grandes dimensiones, ya que pueden explorar la distribución posterior de forma local, es decir, en una vecindad del valor actual, y en un número menor de componentes, es decir, en subespacios. Por ejemplo, elp(θ|x)

Los métodos de Monte Carlo de la cadena de Markov también tienen cierto grado de universalidad en algoritmos como el algoritmo Metropolis-Hastingsp(θ|x)

p(θ)f(x|θ)

p(θ)f(x|θ)g(z|θ,x)p(θ)f(x|θ)dz

Los métodos MCMC han dado un alcance mucho más amplio para los métodos bayesianos, como lo ilustra el aumento que siguió a la popularización del método por Alan Gelfand y Adrian Smith en 1990.

Xi'an
fuente
El enlace al LIBRO DE ERRORES ya no funciona.
HelloWorld