En el algoritmo Metropolis – Hastings para muestrear una distribución objetivo, dejemos que:
- sea la densidad objetivo en el estado ,
- sea la densidad objetivo en el estado propuesto ,
- sea la densidad propuesta para la transición al estado dado el estado actual ,
- sea la probabilidad de aceptación del estado propuesto dado el estado actual .
Luego, mediante la ecuación de equilibrio detallada, después de elegir la densidad de propuesta , la probabilidad de aceptación se calcula como:
Si es simétrica, es decir, , entonces:
Cuando es una distribución gaussiana centrada en el estado y tiene la misma varianza para todo , es simétrica. De Wikipedia :
Si es demasiado grande, casi todos los pasos bajo el algoritmo MH serán rechazados. Por otro lado, si es demasiado pequeño, se aceptarán casi todos los pasos.
Me pregunto por qué la probabilidad de aceptación cambia en la dirección inversa del cambio de varianza de la densidad de la propuesta, como se menciona en la cita anterior.
Respuestas:
Para obtener esto y simplificar las cosas, siempre pienso primero en un solo parámetro con distribución uniforme (a largo plazo) a priori, de modo que en este caso, la estimación MAP del parámetro es la misma que la MLE . Sin embargo, suponga que su función de probabilidad es lo suficientemente complicada como para tener varios máximos locales.
Lo que MCMC hace en este ejemplo en 1-D es explorar la curva posterior hasta que encuentre valores de probabilidad máxima. Si la varianza es demasiado corta, seguramente se quedará atascado en los máximos locales, porque siempre estará muestreando valores cerca de él: el algoritmo MCMC "pensará" que está atascado en la distribución objetivo. Sin embargo, si la varianza es demasiado grande, una vez que se quede atascado en un máximo local, rechazará más o menos los valores hasta que encuentre otras regiones de máxima probabilidad. Si propones el valor en el MAPA (o una región similar de probabilidad máxima local que sea mayor que las demás), con una gran variación terminarás rechazando casi cualquier otro valor: la diferencia entre esta región y las otras será muy grande
Por supuesto, todo lo anterior afectará la tasa de convergencia y no la convergencia "per-se" de sus cadenas. Recuerde que sea cual sea la variación, siempre que la probabilidad de seleccionar el valor de esta región máxima global sea positiva, su cadena convergerá.
Sin embargo, para evitar este problema, lo que se puede hacer es proponer diferentes variaciones en un período de quemado para cada parámetro y apuntar a ciertas tasas de aceptación que puedan satisfacer sus necesidades (digamos , ver Gelman, Roberts y Gilks, 1995 y Gelman, Gilks & Roberts, 1997 para obtener más información sobre el tema de seleccionar una "buena" tasa de aceptación que, por supuesto, dependerá de la forma de su distribución posterior). Por supuesto, en este caso la cadena no es markoviana, por lo que NO tiene que usarlos para inferencia: solo los usa para ajustar la varianza.0.44
fuente
Hay dos supuestos básicos que conducen a esta relación:
Consideremos primero el caso "small ". Sea el estado actual de la cadena de Markov y sea el estado propuesto. Como es muy pequeño, podemos estar seguros de que . Combinando esto con nuestra primera suposición, vemos que y, por lo tanto, .σ2 xi xj∼N(xi,σ2) σ2 xj≈xi π(xj)≈π(xi) π(xj)π(xi)≈1
La baja tasa de aceptación con gran deduce de la segunda suposición. Recuerde que aproximadamente el de la masa de probabilidad de una distribución normal se encuentra dentro de de su media, por lo que en nuestro caso la mayoría de las propuestas se generarán dentro de la ventana . A medida que hace más grande, esta ventana se expande para cubrir cada vez más el dominio de la variable. La segunda suposición implica que la función de densidad debe ser bastante pequeña en la mayor parte del dominio, por lo que cuando nuestra ventana de muestreo es grande con frecuencia será muy pequeña.σ2 95% 2σ [xi−2σ,xi+2σ] σ2 π(xj)
Ahora para un poco de razonamiento circular: como sabemos que el muestreador MH genera muestras distribuidas de acuerdo con la distribución estacionaria , debe ser el caso de que genere muchas muestras en las regiones de alta densidad del dominio y pocas muestras en las regiones de baja densidad . Como la mayoría de las muestras se generan en regiones de alta densidad, suele ser grande. Por lo tanto, es grande y es pequeño, lo que resulta en una tasa de aceptación .π π(xi) π(xi) π(xj) π(xj)π(xi)<<1
Estas dos suposiciones son ciertas para la mayoría de las distribuciones que probablemente nos interesen, por lo que esta relación entre el ancho de la propuesta y la tasa de aceptación es una herramienta útil para comprender el comportamiento de los muestreadores de MH.
fuente