Estoy leyendo sobre MCMC adaptativa (véase, por ejemplo, el Capítulo 4 del Manual de Markov Chain Monte Carlo , ed. Brooks et al., 2011; y también Andrieu & Thoms, 2008 ).
Este resultado es (a posteriori) intuitivo, asintóticamente. Como la cantidad de adaptación tiende a cero, eventualmente no se equivocará con la ergodicidad. Mi preocupación es lo que sucede con el tiempo finito .
¿Cómo sabemos que la adaptación no está alterando la ergodicidad en un tiempo finito dado, y que una muestra está tomando muestras de la distribución correcta? Si tiene sentido, ¿cuánto se debe hacer para garantizar que la adaptación temprana no esté sesgando las cadenas?
¿Los profesionales en el campo confían en el MCMC adaptativo? La razón por la que pregunto es porque he visto muchos métodos recientes que intentan incorporar la adaptación en otras formas más complejas que se sabe que respetan la ergodicidad, como la regeneración o los métodos de conjunto (es decir, es legítimo elegir una transición operador que depende del estado de otras cadenas paralelas). Alternativamente, la adaptación se realiza solo durante el encendido, como en Stan , pero no en tiempo de ejecución. Todos estos esfuerzos me sugieren que el MCMC adaptativo según Roberts y Rosenthal (que sería increíblemente simple de implementar) no se considera confiable; pero tal vez hay otras razones.
¿Qué pasa con implementaciones específicas, tales como Metropolis-Hastings adaptativa ( Haario et al. 2001 )?
Referencias
- Rosenthal, JS (2011). Óptima distribución de propuestas y MCMC adaptativa. Manual de Markov Chain Monte Carlo , 93-112.
- Andrieu, C. y Thoms, J. (2008) . Un tutorial sobre MCMC adaptativo. Estadísticas e informática , 18 (4), 343-373.
- Roberts, GO y Rosenthal, JS (2007) . Acoplamiento y ergodicidad de los algoritmos adaptativos de la cadena Markov de Monte Carlo. Diario de probabilidad aplicada , 458-475.
- Haario, H., Saksman, E. y Tamminen, J. (2001) . Un algoritmo adaptativo de Metrópolis. Bernoulli , 223-242.
Respuestas:
La ergodicidad y el sesgo tienen que ver con las propiedades asintóticas de la cadena de Markov, no dicen nada sobre el comportamiento y la distribución de la cadena de Markov
at a given finite time
. La adaptabilidad no tiene nada que ver con este problema, cualquier algoritmo MCMC puede producir simulaciones lejos del objetivoat a given finite time
.fuente
at a given finite time
. Sin embargo, en la práctica los usamos como si proporcionaran una aproximación buena / razonable de la distribución objetivo en un tiempo finito dado, aunque en la mayoría de los casos no hay garantías teóricas (AFAIK solo unos pocos casos se entienden matemáticamente). Tal vez debería decir "perder el tiempo de mezcla "? Eso está más cerca de lo que quise decir. Si tiene sugerencias sobre cómo corregir el idioma, hágamelo saber.