Muestreo de Gibbs versus MH-MCMC general

20

Acabo de leer un poco sobre el muestreo de Gibbs y el algoritmo Metropolis Hastings y tengo un par de preguntas.

Según tengo entendido, en el caso del muestreo de Gibbs, si tenemos un gran problema multivariado, tomamos muestras de la distribución condicional, es decir, tomamos muestras de una variable mientras mantenemos todos los demás fijos, mientras que en MH, tomamos muestras de la distribución conjunta completa.

Una cosa que decía el documento era que la muestra propuesta siempre se acepta en Gibbs Sampling, es decir, la tasa de aceptación de la propuesta es siempre 1. Para mí, esto parece una gran ventaja ya que para grandes problemas multivariados parece que la tasa de rechazo para el algoritmo MH se vuelve bastante grande . Si ese es el caso, ¿cuál es la razón detrás de no usar Gibbs Sampler todo el tiempo para generar la distribución posterior?

Luca
fuente
11
Una propuesta de MH multivariante bien construida puede superar en gran medida el muestreo de Gibbs, incluso cuando es posible el muestreo de los condicionales (p. Ej., Multivariante de alta dimensión normal, HMC supera a Gibbs por un amplio margen cuando las variables están altamente correlacionadas). Esto se debe a que el muestreo de Gibbs no permite que las variables evolucionen conjuntamente. Es algo análogo a optimizar una función optimizando iterativamente los argumentos individuales; puede hacerlo mejor si optimiza todos los argumentos conjuntamente en lugar de cada uno en sucesión, a pesar de que es más fácil hacer el último.
chico
Metropolis-Hastings puede muestrear usando propuestas para un condicional. ¿Te refieres a un tipo particular de MH?
Glen_b -Reinstate a Monica el
1
Gracias por el comentario. No, solo estaba pensando en general por qué Gibbs Sampler no se usa con más frecuencia. Había pasado por alto el hecho de que la forma de distribución condicional debe conocerse a priori para el muestreo de Gibbs. Para mis necesidades actuales, parece que una combinación funciona mejor. Por lo tanto, use un paso MH para un subconjunto de los parámetros mientras mantiene otros constantes y luego use Gibbs para el otro subconjunto (donde los condicionales son fáciles de evaluar analíticamente). Estoy empezando con esto, así que aún no estoy al tanto de varios tipos de MH. Cualquier consejo al respecto es apreciado :-)
Luca

Respuestas:

12

La razón principal detrás del uso del algoritmo Metropolis radica en el hecho de que puede usarlo incluso cuando se desconoce el posterior resultante. Para el muestreo de Gibbs, debe conocer las distribuciones posteriores de las que extrae las variaciones.

usuario3777456
fuente
1
¡Gracias por la respuesta! Entonces, con GS, la idea es que los condicionales son distribuciones más simples que se pueden muestrear con bastante facilidad, mientras que la distribución conjunta, aunque conocida, podría ser una distribución complicada de la que es difícil muestrear.
Luca
2
Sí, es cierto. Muchas veces, sin embargo, el muestreo de Gibbs y la Metrópolis se utilizan conjuntamente. Por lo tanto, el condicionamiento de algunas variables puede proporcionarle una forma posterior cerrada, mientras que para otras esto no es posible y debe usar un "paso de Metrópolis". En este caso, debe decidir para qué tipo de muestra de Metrópolis (independencia, caminata aleatoria) y qué tipo de densidades de propuesta utiliza. Pero supongo que esto va un poco demasiado lejos y deberías leer estas cosas primero.
user3777456
3

El muestreo de Gibbs rompe la maldición de la dimensionalidad en el muestreo ya que ha dividido el espacio de parámetros (posiblemente de alta dimensión) en varios pasos de baja dimensión. Metropolis-Hastings alivia algunos de los problemas dimensionales de generar técnicas de muestreo de rechazo, pero todavía está tomando muestras de una distribución multivariada completa (y decide aceptar / rechazar la muestra) que hace que el algoritmo sufra la maldición de la dimensionalidad.

Piénselo de esta manera simplificada: es mucho más fácil proponer una actualización para una variable a la vez (Gibbs) que todas las variables simultáneamente (Metropolis Hastings).

Dicho esto, la dimensionalidad del espacio de parámetros aún afectará la convergencia tanto en Gibbs como en Metropolis Hastings, ya que hay más parámetros que potencialmente no podrían converger.

Gibbs también es bueno porque cada paso del ciclo de Gibbs puede estar en forma cerrada. Este suele ser el caso en los modelos jerárquicos donde cada parámetro está condicionado solo por unos pocos. A menudo es bastante simple construir su modelo para que cada paso de Gibbs esté en forma cerrada (cuando cada paso se conjuga, a veces se lo llama "semi-conjugado"). Esto es bueno porque estás tomando muestras de distribuciones conocidas que a menudo pueden ser muy rápidas.

TrynnaDoStat
fuente
"El muestreo de Gibbs rompe la maldición de la dimensionalidad en el muestreo": en realidad, el muestreo de Gibbs tiende a ser mucho peor que algo como Metropolis Hastings con una matriz de covarianza de propuesta adaptativa.
Cliff AB