Cuando se ejecuta el algoritmo Metropolis-Hastings con distribuciones de candidatos uniformes, ¿cuál es la razón de tener tasas de aceptación de alrededor del 20%?
Mi pensamiento es: una vez que se descubren los valores de los parámetros verdaderos (o casi verdaderos), entonces ningún nuevo conjunto de valores de parámetros candidatos del mismo intervalo uniforme aumentaría el valor de la función de probabilidad. Por lo tanto, cuantas más iteraciones ejecute, menores serán las tasas de aceptación que debería obtener.
¿Dónde me equivoco en este pensamiento? ¡Muchas gracias!
Aquí está la ilustración de mis cálculos:
donde es el log-verosimilitud.
Como candidatos siempre se toman del mismo intervalo uniforme,
Por lo tanto, el cálculo de la tasa de aceptación se reduce a:
La regla de aceptación de es la siguiente:
Si , donde se de la distribución uniforme en el intervalo , entonces
de lo contrario, extraiga de la distribución uniforme en el intervalo
fuente
Respuestas:
Creo que la convergencia débil y la escala óptima de los algoritmos Metropolis de caminata aleatoria de Roberts, Gelman y Gilks es la fuente de la tasa de aceptación óptima de 0.234.
Lo que muestra el artículo es que, bajo ciertos supuestos, puede escalar el algoritmo de caminata aleatoria Metropolis-Hastings a medida que la dimensión del espacio va al infinito para obtener una difusión limitante para cada coordenada. En el límite, la difusión puede verse como "más eficiente" si la tasa de aceptación toma el valor 0.234. Intuitivamente, es una compensación entre hacer muchos pequeños pasos aceptados y hacer muchas grandes propuestas que son rechazadas.
El algoritmo Metropolis-Hastings no es realmente un algoritmo de optimización, en contraste con el recocido simulado. Es un algoritmo que se supone que simula a partir de la distribución objetivo, por lo tanto, la probabilidad de aceptación no debe dirigirse hacia 0.
fuente
Solo para agregar a la respuesta de @NRH. La idea general sigue el principio de Ricitos de Oro :
Por supuesto, la pregunta es, ¿qué queremos decir con "justo". Esencialmente, para un caso particular, minimizan la distancia de salto cuadrada esperada. Esto es equivalente a minimizar las autocorrelaciones de lag-1. Recientemente, Sherlock y Roberts mostraron que la magia 0.234 se aplica a otras distribuciones de objetivos:
fuente
Estoy agregando esto como respuesta porque no tengo suficiente reputación para comentar bajo la pregunta. Creo que estás confundido entre la tasa de aceptación y la tasa de aceptación .
Ahora su duda de que la tasa de aceptación óptima sea del 20% en realidad se trata de la tasa de aceptación real, no de la tasa de aceptación. La respuesta se da en las otras respuestas. Solo quería señalar la confusión que estás teniendo.
fuente