Ejemplos de errores en algoritmos MCMC

28

Estoy investigando un método para la verificación automática de los métodos de Monte Carlo de la cadena de Markov, y me gustaría algunos ejemplos de errores que pueden ocurrir al construir o implementar tales algoritmos. Puntos de bonificación si se utilizó el método incorrecto en un artículo publicado.

Estoy particularmente interesado en los casos en que el error significa que la cadena tiene una distribución invariante incorrecta, aunque otros tipos de errores (por ejemplo, cadena no ergódica) también serían interesantes.

Un ejemplo de tal error sería no generar un valor cuando Metropolis-Hastings rechaza un movimiento propuesto.

Simon Byrne
fuente
77
Uno de mis ejemplos favoritos es el estimador de la media armónica porque tiene buenas propiedades asintóticas pero no funciona en la práctica. Radford Neal analiza esto en su blog: "La mala noticia es que la cantidad de puntos necesarios para que este estimador se acerque a la respuesta correcta a menudo será mayor que la cantidad de átomos en el universo observable". Este método ha sido ampliamente implementado en aplicaciones.
3
Otra cortesía del Prof. Neal.
Cian
55
@Cyan Para que Neal sea tomado en serio, creo que debería haber encontrado una revista que acepte su artículo en lugar de simplemente enviarlo por Internet. Puedo creer fácilmente que tiene razón y que los árbitros y el autor son incorrectos. Aunque es difícil publicar artículos que contradigan los resultados publicados y el rechazo de JASA es desalentador, creo que debería haber intentado varias otras publicaciones hasta que tuvo éxito. Necesita un árbitro parcial e independiente para agregar credibilidad a sus hallazgos.
Michael R. Chernick
44
¡Uno siempre debe tomar en serio al Prof. Neal! ; o) En serio, es una pena que resultados como este sean difíciles de publicar, y desafortunadamente la cultura académica moderna no parece valorar ese tipo de cosas, por lo que es comprensible si no es una actividad de alta prioridad para él. Pregunta interesante, estoy muy interesado en las respuestas.
Dikran Marsupial
66
@Michael: Quizás. Habiendo estado en todos lados de situaciones similares, incluso en la posición del Prof. Neal, en muchas ocasiones, mis observaciones anecdóticas son que el rechazo de papel lleva muy, muy poco contenido de información en la mayoría de los casos, al igual que muchas aceptaciones. La revisión por pares es mucho más ruidosa de lo que la gente quiere admitir y, a menudo, como puede ser el caso aquí, hay partes e intereses parciales e interesados (es decir, no independientes) en juego. Dicho esto, no tenía la intención de que mi comentario original nos llevara tan lejos del tema en cuestión. Gracias por compartir tus pensamientos sobre el asunto.
cardenal

Respuestas:

11

1. Probabilidad marginal y estimador de media armónica

La probabilidad marginal se define como la constante de normalización de la distribución posterior.

p(x)=Θp(x|θ)p(θ)dθ.

La importancia de esta cantidad proviene del papel que juega en la comparación de modelos a través de factores de Bayes .

Se han propuesto varios métodos para aproximar esta cantidad. Raftery y col. (2007) proponen el estimador de media armónica , que rápidamente se hizo popular debido a su simplicidad. La idea consiste en utilizar la relación.

1pags(X)=Θpags(θEl |X)pags(XEl |θ)reθ.

Por lo tanto, si tenemos una muestra de la parte posterior, por ejemplo , esta cantidad se puede aproximar por(θ1,...,θnorte)

1pags(X)1nortej=1norte1pags(XEl |θj).

Esta aproximación está relacionada con el concepto de muestreo de importancia .

Según la ley de los grandes números, como se discutió en el blog de Neal , tenemos que este estimador es consistente . El problema es que el requerido para una buena aproximación puede ser enorme. Vea el blog de Neal o el blog de Robert 1 , 2 , 3 , 4 para ver algunos ejemplos.norte

Alternativas

Hay muchas alternativas para aproximar . Chopin y Robert (2008) presentan algunos métodos basados ​​en el muestreo de importancia.pags(X)

2. No ejecuta su muestreador MCMC el tiempo suficiente (especialmente en presencia de multimodalidad)

Mendoza y Gutiérrez-Peña (1999) deducen la referencia anterior / posterior para la razón de dos medias normales y presentan un ejemplo de las inferencias obtenidas con este modelo utilizando un conjunto de datos real. Usando métodos MCMC, obtienen una muestra de tamaño de la parte posterior de la relación de medias φ que se muestra a continuación2000φ

ingrese la descripción de la imagen aquí

φ (0,63,5.29)0 00 0

ingrese la descripción de la imagen aquí

(0 0,7.25)

3. En esta discusión , Gelman, Carlin y Neal pueden encontrar otros temas , como la evaluación de la convergencia, la elección de valores iniciales, el mal comportamiento de la cadena .

4. Muestreo de importancia

sol

yo=F(X)reX=F(X)sol(X)sol(X)reX.

sol(X1,...,Xnorte)yo

yo1nortej=1norteF(Xj)sol(Xj).

solFnorte

# Integrating a Student's t with 1 d.f. using a normal importance function   
x1 = rnorm(10000000)   # N=10,000,000
mean(dt(x1,df=1)/dnorm(x1))

# Now using a Student's t with 2 d.f. function
x2 = rt(1000,df=2)
mean(dt(x2,df=1)/dt(x2,df=2))

fuente
2
Son algunos buenos ejemplos. Para cualquiera que esté interesado, la carta al editor con la figura está aquí: onlinelibrary.wiley.com/doi/10.1002/bimj.200800256/abstract
Simon Byrne
2
Muy bonito y claro resumen !! (+1)
gui11aume
12

Darren Wilkinson en su blog da un ejemplo detallado de un error común en el paseo aleatorio Metropolis-Hastings. Recomiendo leerlo en su totalidad, pero aquí está la versión tl; dr.

Si la distribución objetivo es positiva (como las distribuciones Gamma, etc. ) en una dimensión, es tentador rechazar propuestas que tengan un valor negativo en esa dimensión de inmediato. El error es descartar las propuestas como nunca ocurrieron y evaluar la relación de aceptación de Metropolis-Hastings (MH) de las otras solamente. Esto es un error porque equivale a usar una densidad de propuesta no simétrica.

El autor sugiere aplicar una de dos correcciones.

  1. Cuente los "aspectos negativos" como una aceptación fallida (y pierda un poco de eficiencia).

  2. Utilice la relación MH correcta en ese caso, que es

π(X)π(X)Φ(X)Φ(X),

πΦϕ Φ(X)=0 0ϕ(y-X)rey

gui11aume
fuente
1
+1 Ejemplo interesante. También estaba pensando en otros problemas con MH relacionados con la tasa de aceptación. Creo que la tasa óptima de 0.234 se ha usado en exceso.
@Procrastinator conoces muy bien la literatura de MCMC. ¿Es este tu dominio de experiencia?
gui11aume
Gracias por tu comentario. Me gustan las estadísticas bayesianas, luego necesito llevar la cruz MCMC;).
1

Un caso muy claro (relacionado con la aproximación de probabilidad marginal mencionada en la primera respuesta) donde la convergencia verdadera es el ejemplo del problema del cambio de etiqueta en modelos mixtos junto con el uso del estimador de Chib (1995) . Como señaló Radford Neal (1999), si la cadena MCMC no converge correctamente, en el sentido de que explora parte del modo de distribución objetivo, la aproximación de Monte Carlo de Chib no alcanza el valor numérico correcto.

Xi'an
fuente