¿Cuál es la diferencia entre el muestreo de Metropolis Hastings, Gibbs, Importancia y Rechazo?

36

He estado tratando de aprender métodos MCMC y me he encontrado con el muestreo de Metropolis Hastings, Gibbs, Importancia y Rechazo. Si bien algunas de estas diferencias son obvias, es decir, cómo Gibbs es un caso especial de Metropolis Hastings cuando tenemos los condicionales completos, las otras son menos obvias, como cuando queremos usar MH dentro de una muestra de Gibbs, etc. ¿Alguien tiene un ¿Una manera simple de ver la mayor parte de las diferencias entre cada uno de estos? ¡Gracias!

usuario1398057
fuente
3
Iain Murray aborda amablemente esto en su conferencia , al menos con respecto a MCMC.
gwr
2
Estoy de acuerdo con Xi'an en que esta es una pregunta muy amplia; efectivamente está solicitando una gran cantidad de información sobre cuatro cosas diferentes, una discusión de cualquiera de las cuales (o un contraste entre un par de las cuales) daría una respuesta algo larga. Podríamos llegar a algún lugar para enfocar la pregunta al notar que si bien los cuatro son métodos de Monte Carlo, el muestreo importante y el muestreo de rechazo no son MCMC (eso no quiere decir que no se puedan usar dentro de MCMC).
Glen_b -Reinstalar Monica

Respuestas:

47

Como se detalla en nuestro libro con George Casella, los métodos estadísticos de Monte Carlo , estos métodos se utilizan para muestras producen a partir de una distribución dada, la densidad digamos, ya sea para tener una idea acerca de esta distribución, o para resolver un problema de integración o de optimización relacionados con las . Por ejemplo, para encontrar el valor de o el modo de distribución de cuando o un cuantil de esta distribución.f X h ( x ) f ( x ) d xff h ( X ) X f ( x )

Xh(x)f(x)dxh(X)R
h(X)Xf(x)

Para comparar los métodos de Montecarlo de la cadena Monte Carlo y Markov que menciona en criterios relevantes, se requiere establecer los antecedentes del problema y los objetivos del experimento de simulación, ya que los pros y los contras de cada uno variarán de un caso a otro.

Aquí hay algunos comentarios genéricos que ciertamente no cubren la complejidad del problema :

  1. Los métodos de aceptación-rechazo están destinados a proporcionar una muestra iid de . Para lograr esto, uno diseña un algoritmo que toma como entrada un número aleatorio de variables uniformes , y devuelve un valor que es una realización de . Las ventajas son que no hay aproximación en el método: el resultado es realmente una muestra iid de . Las desventajas son muchas: (i) diseñar el algoritmo encontrando una envolvente de que puede generarse puede ser muy costoso en el tiempo humano; (ii) el algoritmo puede ser ineficiente en el tiempo de cálculo, es decir, requiere muchos uniformes para producir una solau 1 , u 2 , x f f f x X ffu1,u2,xfffx; (iii) esas actuaciones están disminuyendo con la dimensión de . En resumen, tales métodos no pueden usarse para simular una o algunas simulaciones de menos que ya estén disponibles en un lenguaje de computadora como R.Xf
  2. Los métodos de la cadena de Markov Monte Carlo (MCMC) son extensiones de los métodos de simulación iid cuando la simulación iid es demasiado costosa. Producen una secuencia de simulaciones cuya distribución limitante es la distribución . Las ventajas son que (i) se necesita menos información sobre para implementar el método; (ii) solo puede conocerse hasta una constante de normalización o incluso como una integral y aún estar asociado con un método MCMC; (iii) existen algoritmos genéricos MCMC para producir simulaciones f f f f ( x ) Z ˜ f ( x , z ) d z ( x t ) t ( x t ) t x t t(xt)tfff
    f(x)Zf~(x,z)dz
    (xt)tque requieren muy poca calibración; (iv) la dimensión es un problema menor, ya que los objetivos de grandes dimensiones pueden dividirse en condicionales de menor dimensión (como en el muestreo de Gibbs). Las desventajas son que (i) las simulaciones están correlacionadas, por lo tanto, son menos informativas que las simulaciones iid; (ii) la validación del método es solo asintótica, por lo tanto, hay una aproximación al considerar para una fija como una realización de ; (iii) la convergencia a (en ) puede ser tan lenta que, a todos los efectos prácticos, el algoritmo no converge(xt)txttf tfft; (iv) la validación universal del método significa que hay un número infinito de implementaciones potenciales, con un rango igualmente infinito de eficiencias.
  3. Los métodos de muestreo de importancia se diseñaron originalmente para aproximaciones integrales, es decir, generar a partir del objetivo incorrecto y compensarlo con un peso de importanciaLa muestra resultante es ponderada, lo que hace que la comparación con lo anterior sea incómoda. Sin embargo, el muestreo de importancia se puede convertir en muestreo de muestreo de importancia mediante el uso de un paso de muestreo adicional basado en los pesos. Los pros de importancia del muestreo de muestreo son que (i) la generación de un objetivo de importancia puede ser barata y reciclada para diferentes objetivos ; (ii) la elección "correcta" def ( x ) / g ( x )g(x)g f g g f
    f(x)/g(x).
    gfgpuede conducir a grandes mejoras en comparación con el muestreo regular o MCMC; (iii) el muestreo de importancia es más susceptible de mejorar la integración numérica, como por ejemplo la integración cuasi-Monte Carlo; (iv) puede convertirse en versiones adaptativas como la población de Monte Carlo y la secuencial de Monte Carlo. Las desventajas son que (i) el remuestreo induce ineficiencia (que puede corregirse en parte reduciendo el ruido como en el muestreo sistemático o qMC); (ii) la elección "incorrecta" de puede conducir a enormes pérdidas de eficiencia e incluso a una variación infinita; (iii) la importancia tiene problemas para enfrentar grandes dimensiones y su eficiencia disminuye rápidamente con la dimensión; (iv) el método puede ser tan miope como los métodos locales de MCMC en regiones importantes que faltan del soporte de .gf

En conclusión, una advertencia de que no existe un método de simulación óptimo. Incluso en una configuración específica como la aproximación de una integral costos de diseñar y ejecutar diferentes métodos interfieren como hacer una comparación global muy delicada, si es posible, mientras que, desde un punto de vista formal, nunca pueden superar la respuesta de varianza cero de devolver la "estimación" constante Por ejemplo, simular desde es muy rara vez, si es que alguna vez, la mejor opción. Esto no significa que los métodos no puedan compararse, sino que siempre existe la posibilidad de una mejora, que conlleva costos adicionales.I = X h ( x ) f ( x ) d x f

I=Xh(x)f(x)dx,
I^=Xh(x)f(x)dx
f
Xi'an
fuente
Cuando dice "el resultado es realmente una muestra iid de ", ¿significaría esto que no es necesario un período de calentamiento y que necesitaría muchas menos muestras posteriores (ya que no hay autocorrelación)? f
TrynnaDoStat
Me preguntaba cuál es el h(x)significado concreto h(x)f(x)dxen un escenario de análisis bayesiano. Estamos tratando de obtener el posterior, dado el previo y los datos. Sin embargo, parece que con todos estos métodos de muestreo en realidad estamos tratando de aproximarnos f(x). Entonces, ¿se puede decir que f(x)ya es la parte posterior que estamos buscando, y h(x)es solo una función arbitraria que también podríamos juntar con la parte posterior f(x)? O no lo entendí correctamente. Gracias.
xji
Este es un caso particular de , de hecho, cuando es la probabilidad x posterior o anterior. Y es una función arbitraria cuya expectativa posterior es de interés. fh
Xh(x)f(x)dx
fh
Xi'an