¿Se puede confiar en el MCMC adaptativo?

20

Estoy leyendo sobre MCMC adaptativa (véase, por ejemplo, el Capítulo 4 del Manual de Markov Chain Monte Carlo , ed. Brooks et al., 2011; y también Andrieu & Thoms, 2008 ).

np(n)limnp(n)=0

Este resultado es (a posteriori) intuitivo, asintóticamente. Como la cantidad de adaptación tiende a cero, eventualmente no se equivocará con la ergodicidad. Mi preocupación es lo que sucede con el tiempo finito .

  • ¿Cómo sabemos que la adaptación no está alterando la ergodicidad en un tiempo finito dado, y que una muestra está tomando muestras de la distribución correcta? Si tiene sentido, ¿cuánto se debe hacer para garantizar que la adaptación temprana no esté sesgando las cadenas?

  • ¿Los profesionales en el campo confían en el MCMC adaptativo? La razón por la que pregunto es porque he visto muchos métodos recientes que intentan incorporar la adaptación en otras formas más complejas que se sabe que respetan la ergodicidad, como la regeneración o los métodos de conjunto (es decir, es legítimo elegir una transición operador que depende del estado de otras cadenas paralelas). Alternativamente, la adaptación se realiza solo durante el encendido, como en Stan , pero no en tiempo de ejecución. Todos estos esfuerzos me sugieren que el MCMC adaptativo según Roberts y Rosenthal (que sería increíblemente simple de implementar) no se considera confiable; pero tal vez hay otras razones.

  • ¿Qué pasa con implementaciones específicas, tales como Metropolis-Hastings adaptativa ( Haario et al. 2001 )?


Referencias

lacerbi
fuente
1
+1 pero ¿hay garantías de tiempo finito incluso para MCMC no adaptativas?
Juho Kokkala
2
@JuhoKokkala: probablemente no, pero parece que con el MCMC adaptativo se está agregando otra capa de posibles modos de falla, que se entienden menos y son más difíciles de verificar que los problemas estándar de convergencia (que ya son bastante difíciles de diagnosticar per se). Al menos, esa es mi comprensión de por qué los practicantes (yo, por mi parte) desconfiarían de eso.
lacerbi
1
Creo que la adaptación durante el burnin es la mejor manera de lidiar con la adaptación. Obviamente, si tiene algunas áreas de su parte posterior que requieren un ajuste diferente que otras, tendrá problemas, pero si ese es el caso, si ejecuta MCMC totalmente adaptativo, no se le permitirá adaptarse mucho debido a la condición de desaparición de todos modos ... .
sega_sai

Respuestas:

2

¿Cómo sabemos que la adaptación no está alterando la ergodicidad en un tiempo finito dado, y que una muestra está tomando muestras de la distribución correcta? Si tiene sentido, ¿cuánto se debe hacer para garantizar que la adaptación temprana no esté sesgando las cadenas?

La ergodicidad y el sesgo tienen que ver con las propiedades asintóticas de la cadena de Markov, no dicen nada sobre el comportamiento y la distribución de la cadena de Markov at a given finite time. La adaptabilidad no tiene nada que ver con este problema, cualquier algoritmo MCMC puede producir simulaciones lejos del objetivo at a given finite time.

Xi'an
fuente
1
(+1) Gracias por la aclaración. Sí, entiendo que los algoritmos MCMC no tienen garantías at a given finite time. Sin embargo, en la práctica los usamos como si proporcionaran una aproximación buena / razonable de la distribución objetivo en un tiempo finito dado, aunque en la mayoría de los casos no hay garantías teóricas (AFAIK solo unos pocos casos se entienden matemáticamente). Tal vez debería decir "perder el tiempo de mezcla "? Eso está más cerca de lo que quise decir. Si tiene sugerencias sobre cómo corregir el idioma, hágamelo saber.
lacerbi