Índice de aceptación en el algoritmo de Metrópolis-Hastings

9

En el algoritmo Metropolis – Hastings para muestrear una distribución objetivo, dejemos que:

  • πi sea ​​la densidad objetivo en el estado ,i
  • πj sea ​​la densidad objetivo en el estado propuesto ,j
  • hij sea ​​la densidad propuesta para la transición al estado dado el estado actual ,ji
  • aij sea ​​la probabilidad de aceptación del estado propuesto dado el estado actual .ji

Luego, mediante la ecuación de equilibrio detallada, después de elegir la densidad de propuesta , la probabilidad de aceptación se calcula como: ha

aij=min(1,πjhjiπihij).

Si h es simétrica, es decir, hij=hji , entonces:

aij=min(1,πjπi).

Cuando hi es una distribución gaussiana centrada en el estado i y tiene la misma varianza σ2 para todo i , h es simétrica. De Wikipedia :

Si σ2 es demasiado grande, casi todos los pasos bajo el algoritmo MH serán rechazados. Por otro lado, si σ2 es demasiado pequeño, se aceptarán casi todos los pasos.

Me pregunto por qué la probabilidad de aceptación cambia en la dirección inversa del cambio de varianza de la densidad de la propuesta, como se menciona en la cita anterior.

Tim
fuente
Hay un problema con su formulación: utiliza un espacio de estado finito para definir el objetivo, la propuesta y la probabilidad de aceptación, pero una distribución gaussiana que opera en un espacio continuo como su ejemplo.
Xi'an
@ Xi'an: ¡Gracias! Era consciente de la diferencia entre el espacio muestral discreto y continuo, cuando publiqué la pregunta. Entonces, en mi formulación, hay funciones de densidad para las distribuciones de destino y propuesta, mientras que es probable que la distribución de aceptación. No veo lo que no es correcto. Me pregunto si podrías señalarlos.
Tim
En su formulación, el objetivo y la propuesta parecen funciones de probabilidad de masa, no funciones de densidad. O bien, es muy confuso usar símbolos generalmente reservados para enteros ... Quiero decir, parece un elemento de matriz. Por eso siento que la propuesta gaussiana no encaja. hij
Xi'an

Respuestas:

11

Para obtener esto y simplificar las cosas, siempre pienso primero en un solo parámetro con distribución uniforme (a largo plazo) a priori, de modo que en este caso, la estimación MAP del parámetro es la misma que la MLE . Sin embargo, suponga que su función de probabilidad es lo suficientemente complicada como para tener varios máximos locales.

Lo que MCMC hace en este ejemplo en 1-D es explorar la curva posterior hasta que encuentre valores de probabilidad máxima. Si la varianza es demasiado corta, seguramente se quedará atascado en los máximos locales, porque siempre estará muestreando valores cerca de él: el algoritmo MCMC "pensará" que está atascado en la distribución objetivo. Sin embargo, si la varianza es demasiado grande, una vez que se quede atascado en un máximo local, rechazará más o menos los valores hasta que encuentre otras regiones de máxima probabilidad. Si propones el valor en el MAPA (o una región similar de probabilidad máxima local que sea mayor que las demás), con una gran variación terminarás rechazando casi cualquier otro valor: la diferencia entre esta región y las otras será muy grande

Por supuesto, todo lo anterior afectará la tasa de convergencia y no la convergencia "per-se" de sus cadenas. Recuerde que sea cual sea la variación, siempre que la probabilidad de seleccionar el valor de esta región máxima global sea positiva, su cadena convergerá.

Sin embargo, para evitar este problema, lo que se puede hacer es proponer diferentes variaciones en un período de quemado para cada parámetro y apuntar a ciertas tasas de aceptación que puedan satisfacer sus necesidades (digamos , ver Gelman, Roberts y Gilks, 1995 y Gelman, Gilks ​​& Roberts, 1997 para obtener más información sobre el tema de seleccionar una "buena" tasa de aceptación que, por supuesto, dependerá de la forma de su distribución posterior). Por supuesto, en este caso la cadena no es markoviana, por lo que NO tiene que usarlos para inferencia: solo los usa para ajustar la varianza.0.44

Néstor
fuente
+1 ¡Gracias! (1) ¿Por qué "si la varianza es demasiado grande, una vez que te quedas atascado en un máximo local, rechazarás más o menos los valores hasta que encuentres otras regiones de máxima probabilidad"? (2) "Si usted propone el valor en el MAPA (o una región similar de probabilidad máxima local que sea mayor que las demás), con una gran variación, terminará rechazando casi cualquier otro valor", ¿quiere decir? ¿Es muy probable que el punto propuesto que esté en MAP sea rechazado en caso de gran variación? Dado que es el máximo global, ¿no es su probabilidad de aceptación siempre 1 independientemente del estado actual?
Tim
@Tim: (1) Estaba pensando en el caso cuando el estado inicial es aleatorio. Si este es el caso, entonces saltará de máximos a máximos, hasta que encuentre una región de probabilidad máxima local que sea mayor que el promedio. (2) Si propones un valor cercano al MAPA, lo más probable es que saltes a ese estado. Una vez que esté allí, con una gran variación, seguramente rechazará cualquier otro valor, porque propondrá valores muy por fuera de esta región de probabilidad máxima.
Néstor
7

Hay dos supuestos básicos que conducen a esta relación:

  1. La distribución estacionaria no cambia demasiado rápido (es decir, tiene una primera derivada acotada).π()
  2. La mayor parte de la masa de probabilidad de se concentra en un subconjunto relativamente pequeño del dominio (la distribución es "pico").π()

Consideremos primero el caso "small ". Sea el estado actual de la cadena de Markov y sea ​​el estado propuesto. Como es muy pequeño, podemos estar seguros de que . Combinando esto con nuestra primera suposición, vemos que y, por lo tanto, .σ2xixjN(xi,σ2)σ2xjxiπ(xj)π(xi)π(xj)π(xi)1

La baja tasa de aceptación con gran deduce de la segunda suposición. Recuerde que aproximadamente el de la masa de probabilidad de una distribución normal se encuentra dentro de de su media, por lo que en nuestro caso la mayoría de las propuestas se generarán dentro de la ventana . A medida que hace más grande, esta ventana se expande para cubrir cada vez más el dominio de la variable. La segunda suposición implica que la función de densidad debe ser bastante pequeña en la mayor parte del dominio, por lo que cuando nuestra ventana de muestreo es grande con frecuencia será muy pequeña.σ295%2σ[xi2σ,xi+2σ]σ2π(xj)

Ahora para un poco de razonamiento circular: como sabemos que el muestreador MH genera muestras distribuidas de acuerdo con la distribución estacionaria , debe ser el caso de que genere muchas muestras en las regiones de alta densidad del dominio y pocas muestras en las regiones de baja densidad . Como la mayoría de las muestras se generan en regiones de alta densidad, suele ser grande. Por lo tanto, es grande y es pequeño, lo que resulta en una tasa de aceptación .ππ(xi)π(xi)π(xj)π(xj)π(xi)<<1

Estas dos suposiciones son ciertas para la mayoría de las distribuciones que probablemente nos interesen, por lo que esta relación entre el ancho de la propuesta y la tasa de aceptación es una herramienta útil para comprender el comportamiento de los muestreadores de MH.

Dibujó
fuente
+1. ¡Gracias! Cuando es grande, todavía no estoy seguro de por qué suele ser grande, mientras que suele ser pequeño. ¿Puede su razón de que es pequeño se aplica a y su razón de que grande se aplica a ? σ2π(xi)π(xj)π(xj)π(xi)π(xi)π(xj)
Tim
1
Otra forma de pensarlo es la siguiente: cuando es grande, la mayoría de sus propuestas ( ) tendrán baja densidad bajo la distribución objetivo (por las razones descritas anteriormente, ¿está bien esa parte?). Muy rara vez propondrá un valor con alta densidad bajo la propuesta, y cuando esto suceda, casi seguramente lo aceptará. Una vez allí, continúa proponiendo valores poco probables; Como rara vez acepta uno de ellos, simplemente se "queda" en su muestra actual de alta densidad durante muchas iteraciones. σ2xj
Dibujó