Hamiltoniano Monte Carlo (HMC): ¿cuál es la intuición y la justificación detrás de una variable de momento distribuido gaussiano?

Estoy leyendo un impresionante artículo introductorio de HMC del profesor Michael Betancourt, pero me quedo atascado en la comprensión de cómo hacemos para elegir la distribución del impulso.

Resumen

La idea básica de HMC es introducir una variable de impulso junto con la variable objetivo . Conjuntamente forman un espacio de fase . $p$ $q$

La energía total de un sistema conservador es una constante y el sistema debe seguir las ecuaciones de Hamilton. Por lo tanto, las trayectorias en el espacio de fase se pueden descomponer en niveles de energía , cada nivel corresponde a un valor dado de energía y se puede describir como un conjunto de puntos que satisface: $E$

$H^{-1}(E) = \{(q, p) | H(q, p) = E\}$ .

Nos gustaría estimar la distribución conjunta , de modo que al integrar obtengamos la distribución objetivo deseada . Además, se puede escribir de manera equivalente como , donde corresponde a un valor particular de la energía y es la posición en ese nivel de energía. $\pi(q, p)$ $p$ $\pi(q)$ $\pi(q, p)$ $\pi(\theta_E \hspace{1.5pt} | \hspace{1.5pt} E) \hspace{1.5pt} \pi(E)$ $E$ $\theta_E$

π (q, p) = {\begin{cases} π (p | q) π (q) \\ π (θ_{E} | E) π (E), microcanonical decomposition \end{cases}

$\begin{equation} \pi(q, p)= \begin{cases} \pi(p \hspace{1.5pt} | \hspace{1.5pt} q) \hspace{1.5pt} \pi(q) \\ \pi(\theta_E \hspace{1.5pt} | \hspace{1.5pt} E) \hspace{1.5pt} \pi(E), \hspace{5pt} \text{microcanonical decomposition} \end{cases} \end{equation}$

Para un valor dado de , es relativamente más fácil de conocer, ya que podemos realizar la integración de las ecuaciones de Hamilton para obtener los puntos de datos en la trayectoria . Sin embargo, es la parte difícil que depende de cómo se especifica la cantidad de movimiento, lo que determinará la energía total . $E$ $\pi(\theta_E \hspace{1.5pt} | \hspace{1.5pt} E)$ $\pi(E)$ $E$

Preguntas

Me parece que lo que buscamos es , pero lo que prácticamente podemos estimar es , basado en el supuesto de que puede ser aproximadamente similar a , como se ilustra en la Fig. 23 del artículo. Sin embargo, lo que en realidad estamos muestreando parece ser . $\pi(E)$ $\pi(E \hspace{1pt} | \hspace{1pt} q)$ $\pi(E \hspace{2pt} | \hspace{1pt} q)$ $\pi(E)$ $\pi(p \hspace{1pt} | \hspace{1pt} q)$

Q1 : ¿Es porque una vez que sabemos , podemos calcular fácilmente y, por lo tanto, estimar ? $\pi(p \hspace{1pt} | \hspace{1pt} q)$ $E$ $\pi(E \hspace{2pt} | \hspace{1pt} q)$

Para suponer que mantiene, utilizamos un momento distribuido gaussiano. Se mencionan dos opciones en el documento: $\pi(E) \sim \pi(E | q)$

π (p | q) = {\begin{cases} N (p | 0, M) Euclidean-Gaussian kinetic energy \\ N (p | 0, Σ (q)) Reimannian-Gaussian kinetic energy, \end{cases}

$\begin{equation} \pi(p|q)= \begin{cases} \mathcal{N}(p \hspace{1pt}| \hspace{1pt} 0, M) \hspace{5pt} \text{Euclidean-Gaussian kinetic energy} \\ \mathcal{N}(p \hspace{1pt}| \hspace{1pt} 0, \Sigma(q)) \hspace{5pt} \text{Reimannian-Gaussian kinetic energy}, \end{cases} \end{equation}$

donde es una constante llamada métrica euclidiana, también conocida como matriz de masa . $M$ $D \times D$

En el caso de la primera opción (Euclidiana-Gaussiana), la matriz de masa es en realidad independiente de , por lo que la probabilidad de que estemos muestreando es en realidad . La elección del momento distribuido gaussiano con covarianza implica que la variable objetivo es distribuida gaussiana con matriz de covarianza , ya que y deben transformarse inversamente para mantener constante el volumen en el espacio de fase . $M$ $q$ $\pi(p)$ $p$ $M$ $q$ $M^{-1}$ $p$ $q$

P2 : Mi pregunta es ¿cómo podemos esperar que siga una distribución gaussiana? En la práctica, podría ser cualquier distribución complicada. $q$ $\pi(q)$

mcmc monte-carlo hmc cwl
fuente

No es tanto que , es solo que si y son diferentes, entonces nuestra exploración estará limitada por nuestra incapacidad para explorar todas las energías relevantes. En consecuencia, en la práctica, las estimaciones empíricas de y son útiles para identificar cualquier limitación potencial de nuestra exploración, que es la motivación para el histograma comparativo y el diagnóstico E-BFMI. $\pi(E)$ $\pi(E)$ $\pi(E|q)$ $\pi(E)$ $\pi(E|q)$

Entonces, ¿qué sabemos sobre las dos distribuciones? A medida que aumentamos la dimensionalidad de nuestra distribución objetivo, entonces tiende a parecer cada vez más gaussiana. Si nuestros tiempos de integración son lo suficientemente largos, nuestras exploraciones de los conjuntos de niveles se equilibrarán y si es gaussiana, entonces también tenderá a ser cada vez más gaussiana. $\pi(E)$ $\pi(p | q)$ $\pi(E|q)$

Por lo tanto, una energía cinética euclidiana gaussiana es un buen punto de partida, ¡ pero de ninguna manera siempre es óptima ! Paso bastante tiempo tratando de adaptarme a modelos donde Stan me grita acerca de un mal diagnóstico de E-BFMI. Una energía cinética gaussiana-riemanniana puede ser una mejora significativa en muchos casos, ya que el determinante logarítmico dependiente de la posición en puede hacer que significativamente más gaussiano, pero aún queda mucho por investigar. hecho para comprender completamente el problema. $\pi(p | q)$ $\pi(E)$

Michael Betancourt
fuente

Estaba tratando de escribir una respuesta, pero si THE Michael Betancourt está en Cross Validated, con mucho gusto retrocederé :-) solo una nota, "disuasión de log" es muy probable un error tipográfico: apuesto a que querías decir "log determinante" .

DeltaIV

Halagado de tener la respuesta de @Michael Betancourt :-) Solo por curiosidad, cuando dijiste "A medida que aumentamos la dimensionalidad de nuestra distribución objetivo, entonces

π (E)

$\pi(E)$ tiende a parecer cada vez más gaussiano ", ¿hay alguna prueba teórica o es una observación empírica?

cwl

@cwl: es un argumento asintótico estándar. Si la distribución objetivo converge a una distribución distribuida independientemente con datos o parámetros crecientes, entonces

p i (E)

$pi(E)$ convergerá a un

c h i^{2}

$chi^{2}$ que será muy aproximado por un gaussiano por encima de algunas dimensiones. Por otro lado, tendemos a llegar a Hamiltoniano Monte Carlo en la práctica cuando el objetivo es complejo, por lo que las asintóticas pueden no ser particularmente relevantes. De ahí la cobertura.

Michael Betancourt

Lo tengo @ Michael Betancourt, ¡muchas gracias por la explicación!

cwl

Hamiltoniano Monte Carlo (HMC): ¿cuál es la intuición y la justificación detrás de una variable de momento distribuido gaussiano?

Resumen

Preguntas

Respuestas: