Hamiltoniano Monte Carlo: ¿cómo dar sentido a la propuesta de Metrópolis Hasting?

Estoy tratando de entender el funcionamiento interno de Hamiltonian Monte Carlo (HMC), pero no puedo entender completamente la parte cuando reemplazamos la integración determinista del tiempo con una propuesta de Metrópolis Hasting. Estoy leyendo el impresionante documento introductorio Una Introducción Conceptual al Hamiltoniano Monte Carlo de Michael Betancourt, por lo que seguiré la misma notación que se utiliza en el mismo.

Antecedentes

El objetivo general de Markov Chain Monte Carlo (MCMC) es aproximar la distribución de una variable objetivo . $\pi(q)$ $q$

La idea de HMC es introducir una variable auxiliar de "impulso" , junto con la variable original que se modela como la "posición". El par posición-momento forma un espacio de fase extendido y puede ser descrito por la dinámica hamiltoniana. La distribución conjunta se puede escribir en términos de descomposición microcanónica: $p$ $q$ $\pi(q, p)$

$\pi(q, p) = \pi(\theta_E | E) \hspace{2pt} \pi(E)$ ,

donde representa los parámetros en un determinado nivel de energía , también conocido como un conjunto típico . Vea la Fig. 21 y la Fig. 22 del documento para ilustración. $\theta_E$ $(q, p)$ $E$

El procedimiento original de HMC consta de los siguientes dos pasos alternativos:

Un paso estocástico que realiza una transición aleatoria entre los niveles de energía, y
Un paso determinista que realiza la integración en el tiempo (generalmente implementado a través de la integración numérica de salto) a lo largo de un nivel de energía dado.

En el documento, se argumenta que leapfrog (o integrador simpléctico) tiene pequeños errores que introducirán un sesgo numérico. Entonces, en lugar de tratarlo como un paso determinista, deberíamos convertirlo en una propuesta de Metropolis-Hasting (MH) para hacer que este paso sea estocástico, y el procedimiento resultante producirá muestras exactas de la distribución.

La propuesta de MH realizará pasos de las operaciones de salto y luego cambiará el impulso. La propuesta será aceptada con la siguiente probabilidad de aceptación: $L$

$a (q_L, -p_L | q_0, p_0) = min(1, \exp(H(q_0,p_0) - H(q_L,-p_L)))$

Preguntas

Mis preguntas son:

1) ¿Por qué esta modificación de convertir la integración determinista del tiempo en propuesta de MH cancela el sesgo numérico para que las muestras generadas sigan exactamente la distribución objetivo?

2) Desde el punto de vista de la física, la energía se conserva en un nivel de energía dado. Es por eso que podemos usar las ecuaciones de Hamilton:

$\dfrac{dq}{dt} = \dfrac{\partial H}{\partial p}, \hspace{10pt} \dfrac{dp}{dt} = -\dfrac{\partial H}{\partial q}$ .

En este sentido, la energía debe ser constante en todas partes en el conjunto típico, por lo tanto, debe ser igual a . ¿Por qué hay una diferencia en la energía que nos permite construir la probabilidad de aceptación? $H(q_0, p_0)$ $H(q_L, -p_L)$

mcmc monte-carlo hmc cwl
fuente

Respuestas:

Las trayectorias deterministas hamiltonianas son útiles solo porque son consistentes con la distribución objetivo. En particular, las trayectorias con un proyecto energético típico en regiones de alta probabilidad de la distribución objetivo. Si pudiéramos integrar las ecuaciones de Hamilton exactamente y construir trayectorias hamiltonianas explícitas, ya tendríamos un algoritmo completo y no necesitaríamos ningún paso de aceptación .

Desafortunadamente, aparte de algunos ejemplos muy simples, no podemos integrar exactamente las ecuaciones de Hamilton. Es por eso que tenemos que incorporar integradores simplécticos . Los integradores simplécticos se utilizan para construir aproximaciones numéricas de alta precisión a las trayectorias hamiltonianas exactas que no podemos resolver analíticamente. El pequeño error inherente a los integradores simplécticos hace que estas trayectorias numéricas se desvíen de las trayectorias verdaderas y, por lo tanto, las proyecciones de las trayectorias numéricas se desviarán del conjunto típico de la distribución objetivo. Necesitamos introducir una forma de corregir esta desviación.

La implementación original de Hamiltoniano Monte Carlo consideró el punto final en una trayectoria de longitud fija como una propuesta, y luego aplicó un procedimiento de aceptación de Metrópolis a esa propuesta. Si la trayectoria numérica hubiera acumulado demasiados errores y, por lo tanto, se desviara demasiado de la energía inicial, entonces esa propuesta sería rechazada. En otras palabras, el procedimiento de aceptación arroja las propuestas que terminan proyectando demasiado lejos del conjunto típico de la distribución objetivo, de modo que las únicas muestras que conservamos son aquellas que se encuentran dentro del conjunto típico.

Tenga en cuenta que las implementaciones más modernas que defiendo en el documento conceptual no son en realidad algoritmos de Metropolis-Hastings. El muestreo de una trayectoria aleatoria y luego un punto aleatorio de esa trayectoria aleatoria es una forma más general de corregir el error numérico introducido por los integradores simplécticos. Metropolis-Hastings es solo una forma de implementar este algoritmo más general, pero el muestreo de corte (como se hace en NUTS) y el muestreo multinomial (como se hace actualmente en Stan) funcionan igual de bien, si no mejor. Pero, en última instancia, la intuición es la misma: estamos seleccionando puntos probabilísticamente con un pequeño error numérico para garantizar muestras exactas de la distribución objetivo.

Michael Betancourt
fuente

Gracias @Michael Betancourt !! Conceptualmente, ahora tengo la idea de hacer que el paso de integración de tiempo sea probabilístico, en función de cuánto se desvía el estado integrado de la trayectoria. Sin embargo, la forma en que se construye la probabilidad de aceptación no tiene sentido para mí, ya que parece que estamos alentando la desviación que resulta en una menor energía. Si es mucho más bajo que , ¿acabamos siempre aceptando la propuesta, a pesar de que se desvía mucho de la trayectoria?

H (q_{L}, - p_{L})

$H(q_L, -p_L)$

H (q_{0}, p_{0})

$H(q_0, p_0)$

cwl

Sí, pero debido a cómo funciona el volumen en espacios de altas dimensiones (siempre más volumen hacia el exterior de una superficie que hacia el interior de la misma), las trayectorias pasan exponencialmente más tiempo desviándose hacia energías más altas que energías más bajas. En consecuencia, cuando combina la propuesta (que favorece las energías más altas) con la aceptación (que favorece las energías más bajas) recupera un equilibrio en torno a la energía inicial.

Michael Betancourt