¿Por qué la parametrización media redundante acelera Gibbs MCMC?

12

En el libro de Gelman & Hill (2007) (Análisis de datos utilizando regresión y modelos multinivel / jerárquicos), los autores afirman que incluir parámetros medios redundantes puede ayudar a acelerar MCMC.

El ejemplo dado es un modelo no anidado de "simulador de vuelo" (Ec. 13.9):

yiN(μ+γj[i]+δk[i],σy2)γjN(0,σγ2)δkN(0,σδ2)

Recomiendan una reparametrización, agregando los parámetros medios y siguiente manera:μγμδ

γjN(μγ,σγ2)δkN(μδ,σδ2)

La única justificación ofrecida es que (p. 420):

Es posible que las simulaciones se atasquen en una configuración en la que todo el vector (o ) esté lejos de cero (aunque se les asigne una distribución con media 0). Finalmente, las simulaciones convergerán a la distribución correcta, pero no queremos tener que esperar.γδ

¿Cómo ayudan los parámetros medios redundantes con este problema?

Me parece que el modelo no anidado es lento principalmente debido a que y están correlacionados negativamente. (De hecho, si uno sube, el otro tiene que bajar, dado que su suma está "fijada" por los datos). ¿Los parámetros medios redundantes ayudan a reducir la correlación entre y , o algo completamente diferente?γδγδ

Heisenberg
fuente
¿Está buscando información intuitiva sobre este problema en particular (por ejemplo, si se trata de la correlación - o las correlaciones - y - ), o está buscando información intuitiva sobre el problema general ( es decir, el concepto de centrado jerárquico)? En el último caso, ¿desearía una intuición cercana a una prueba o intuición mucho más flexible y que muestre más o menos cómo funciona? δ γ μ δ μγδγμδμ
Sextus Empiricus el
Me gustaría una visión intuitiva sobre el concepto de centrado jerárquico en general (ya que el caso particular en la pregunta es directamente una aplicación de centrado jerárquico). El punto clave sobre el que quiero obtener información es: ¿por qué funciona el centrado jerárquico si la varianza a nivel de grupo es una parte considerable de la varianza total ? El artículo de Gelfand et al. prueba esto matemáticamente (es decir, deriva la correlación y encuentra su comportamiento limitante), pero sin ninguna explicación intuitiva.
Heisenberg el

Respuestas:

4

La correlación que debe evitarse es la que se encuentra entre y y .γ j δ kμγjδk

Al reemplazar y en el modelo computacional con parámetros alternativos que se centran en la correlación se reduce.δ k μγjδkμ

Consulte una descripción muy clara en la sección 25.1 "¿Qué es el centrado jerárquico?" en el libro (disponible gratuitamente) 'Estimación MCMC en MLwiN' de William J. Browne y otros. http://www.bristol.ac.uk/cmm/software/mlwin/download/manuals.html

Sexto empírico
fuente
La Sección 25.1 de la 'Estimación MCMC MlwiN' describe esta técnica de "centrado jerárquico", pero no entra en detalles más allá de afirmar que funciona. Al examinar sus referencias, descubrí que la prueba real de esta técnica se presenta en el artículo Parametrizaciones eficientes para modelos mixtos lineales normales , por Gelfand et al, Biometrika vol 82 número 3.
Heisenberg
El artículo anterior a su vez hace uso de las propiedades de la distribución normal sin explicar. Encontré pruebas de esas propiedades en el análisis conjugado bayesiano de la distribución gaussiana por Kevin Murphy.
Heisenberg
Desafortunadamente, todavía no he visto una explicación intuitiva de por qué funciona esta técnica.
Heisenberg
Es tarde, pero creo que este documento podría ser lo que estás buscando
baruuum