Mi comprensión del algoritmo es la siguiente:
Ningún muestreador de giro en U (NUTS) es un método hamiltoniano de Monte Carlo. Esto significa que no es un método de la cadena de Markov y, por lo tanto, este algoritmo evita la parte de la caminata aleatoria, que a menudo se considera ineficiente y lenta para converger.
En lugar de hacer una caminata aleatoria, NUTS realiza saltos de longitud x. Cada salto se duplica a medida que el algoritmo continúa ejecutándose. Esto sucede hasta que la trayectoria alcanza un punto donde quiere volver al punto de partida.
Mis preguntas: ¿Qué tiene de especial el giro en U? ¿Cómo duplicar la trayectoria no omite el punto optimizado? ¿Es correcta mi descripción anterior?
bayesian
monte-carlo
markov-process
user3007270
fuente
fuente
Respuestas:
El bit sin giro en U es cómo se generan las propuestas. HMC genera un sistema físico hipotético: imagina una pelota con una cierta energía cinética rodando alrededor de un paisaje con valles y colinas (la analogía se descompone en más de 2 dimensiones) definida por la parte posterior de la que deseas muestrear. Cada vez que desea tomar una nueva muestra de MCMC, elige aleatoriamente la energía cinética y comienza a rodar la bola desde donde se encuentra. Simula en pasos de tiempo discretos y, para asegurarse de explorar el espacio de parámetros correctamente, simula pasos en una dirección y el doble en la otra dirección, gira de nuevo, etc. En algún momento, desea detener esto y de una buena manera de hacerlo es cuando has hecho un cambio de sentido (es decir, parece que has ido por todas partes).
En este punto, el siguiente paso propuesto de su Cadena Markov se selecciona (con ciertas limitaciones) de los puntos que ha visitado. Es decir, que toda la simulación del hipotético sistema físico fue "solo" para obtener una propuesta que luego se acepta (la siguiente muestra de MCMC es el punto propuesto) o se rechaza (la siguiente muestra de MCMC es el punto de partida).
Lo inteligente es que las propuestas se hacen en función de la forma de la parte posterior y pueden estar en el otro extremo de la distribución. En contraste, Metropolis-Hastings hace propuestas dentro de una bola (posiblemente sesgada), el muestreo de Gibbs solo se mueve a lo largo de una (o al menos muy pocas) dimensiones a la vez.
fuente
Es incorrecto que HMC no sea un método de la cadena de Markov. Por Wikipedia :
Para mayor claridad, lea el documento arXiv de Betancourt , que menciona los criterios de terminación NUTS:
El Apéndice A.3 habla de algo así como la trayectoria que duplica que menciona:
y amplía esto en A.4, donde habla de una implementación dinámica (la sección A.3 habla de una implementación estática):
Creo que la clave es que no hace saltos que doblan, calcula su próximo salto usando una técnica que duplica la longitud del salto propuesto hasta que se cumpla un criterio. Al menos así es como entiendo el artículo hasta ahora.
fuente