Acabo de leer un poco sobre el muestreo de Gibbs y el algoritmo Metropolis Hastings y tengo un par de preguntas.
Según tengo entendido, en el caso del muestreo de Gibbs, si tenemos un gran problema multivariado, tomamos muestras de la distribución condicional, es decir, tomamos muestras de una variable mientras mantenemos todos los demás fijos, mientras que en MH, tomamos muestras de la distribución conjunta completa.
Una cosa que decía el documento era que la muestra propuesta siempre se acepta en Gibbs Sampling, es decir, la tasa de aceptación de la propuesta es siempre 1. Para mí, esto parece una gran ventaja ya que para grandes problemas multivariados parece que la tasa de rechazo para el algoritmo MH se vuelve bastante grande . Si ese es el caso, ¿cuál es la razón detrás de no usar Gibbs Sampler todo el tiempo para generar la distribución posterior?
Respuestas:
La razón principal detrás del uso del algoritmo Metropolis radica en el hecho de que puede usarlo incluso cuando se desconoce el posterior resultante. Para el muestreo de Gibbs, debe conocer las distribuciones posteriores de las que extrae las variaciones.
fuente
El muestreo de Gibbs rompe la maldición de la dimensionalidad en el muestreo ya que ha dividido el espacio de parámetros (posiblemente de alta dimensión) en varios pasos de baja dimensión. Metropolis-Hastings alivia algunos de los problemas dimensionales de generar técnicas de muestreo de rechazo, pero todavía está tomando muestras de una distribución multivariada completa (y decide aceptar / rechazar la muestra) que hace que el algoritmo sufra la maldición de la dimensionalidad.
Piénselo de esta manera simplificada: es mucho más fácil proponer una actualización para una variable a la vez (Gibbs) que todas las variables simultáneamente (Metropolis Hastings).
Dicho esto, la dimensionalidad del espacio de parámetros aún afectará la convergencia tanto en Gibbs como en Metropolis Hastings, ya que hay más parámetros que potencialmente no podrían converger.
Gibbs también es bueno porque cada paso del ciclo de Gibbs puede estar en forma cerrada. Este suele ser el caso en los modelos jerárquicos donde cada parámetro está condicionado solo por unos pocos. A menudo es bastante simple construir su modelo para que cada paso de Gibbs esté en forma cerrada (cuando cada paso se conjuga, a veces se lo llama "semi-conjugado"). Esto es bueno porque estás tomando muestras de distribuciones conocidas que a menudo pueden ser muy rápidas.
fuente