Distribución de propuesta de matriz de covarianza

8

En una implementación MCMC de modelos jerárquicos, con efectos aleatorios normales y un Wishart previo para su matriz de covarianza, se usa típicamente el muestreo de Gibbs.

Sin embargo, si cambiamos la distribución de los efectos aleatorios (p. Ej., A Student's-t u otro), la conjugación se pierde. En este caso, ¿cuál sería una distribución de propuesta adecuada (es decir, fácilmente ajustable) para la matriz de covarianza de los efectos aleatorios en un algoritmo de Metropolis-Hastings, y cuál debería ser la tasa de aceptación objetivo, nuevamente 0.234?

De antemano, gracias por cualquier consejo.

Puesto de Toka
fuente

Respuestas:

16

Bueno, si buscas "algún indicador" ...

La distribución de Wishart (a escala) (inversa) se usa a menudo porque se conjuga con la función de probabilidad multivariante y, por lo tanto, simplifica el muestreo de Gibbs.

En Stan , que utiliza el muestreo hamiltoniano de Montecarlo, no hay restricciones para los antecedentes multivariados. El enfoque recomendado es la estrategia de separación sugerida por Barnard, McCulloch y Meng :

Σ=diag_matrix(σ)Ωdiag_matrix(σ)
dónde σ es un vector de desarrolladores estándar y Ω Es una matriz de correlación.

Los componentes de σse puede dar cualquier previo razonable. En cuanto aΩ, el previo recomendado es

ΩLKJcorr(ν)
donde "LKJ" significa Lewandowski, Kurowicka y Joe . Comoν aumenta, lo anterior se concentra cada vez más alrededor de la matriz de correlación de unidades, en ν=1La distribución de correlación LKJ se reduce a la distribución de identidad sobre las matrices de correlación. Por lo tanto, el LKJ anterior puede usarse para controlar la cantidad esperada de correlación entre los parámetros.

Sin embargo, no he probado (todavía) distribuciones no normales de efectos aleatorios, así que espero no haber perdido el punto ;-)

Sergio
fuente
Esta respuesta habla sobre el anterior, el OP pregunta por la propuesta ... ¿Ayudan estos anteriores con el índice de aceptación de alguna manera?
Un viejo en el mar.
@Sycorax ¿Qué pasa con la propuesta que hizo el OP? ¿Qué debería usar y con qué parámetros?
Un viejo en el mar.
1

Yo personalmente uso las propuestas de Wishart. Por ejemplo, si quiero una propuestaΣ alrededor Σ, Yo suelo:

ΣW(Σ/ /una,una),
dónde una es un gran número, como 1000. Con ese truco obtendrás mi[Σ]=Σ y puedes ajustar la varianza con una. Si no me equivoco, la proporción de propuestas para(pags×pags) matrices tiene una forma cerrada:
q(ΣΣ)q(ΣΣ)=(El |ΣEl |El |ΣEl |)una-(pags-1)/ /2mi[tr(Σ-1Σ)-tr(Σ-1Σ)]una/ /2

RemiDav
fuente
0

Es bien sabido que si usa distribuciones no gaussianas, la conjugación del modelo se pierde, vea:

http://www.utstat.toronto.edu/wordpress/WSFiles/technicalreports/0610.pdf

Luego, debe usar otros métodos MCMC, como Metropolis dentro del muestreo de Gibbs o alguna versión adaptativa del mismo. Afortunadamente, hay un paquete R para hacerlo:

http://cran.r-project.org/web/packages/spBayes/index.html

La tasa de aceptación recomendada es 0.44 pero, por supuesto, hay algunas suposiciones detrás de este número, de manera similar al caso de 0.234.

¿Eres EL Dimitris Rizopoulos?

Teco
fuente
@DimitrisRizopoulos La Metrópolis adaptativa dentro de Gibbs que mencioné utiliza una mezcla finita de distribuciones gaussianas como una distribución de propuesta (como se indica en el informe técnico que publiqué). Si usa la metrópoli hardcore, entonces está pidiendo una respuesta a la "pregunta del millón", para la cual no hay una solución general. Por lo general, tienes que jugar con diferentes propuestas y diferentes tasas de aceptación. Muy buen libro, por cierto.
Teco
0

Se puede usar cualquier propuesta si define su log-posterior correctamente. Solo necesita usar algunos trucos para implementarlo y definir adecuadamente el soporte de su parte posterior, consulte:

¿Cómo encontrar el soporte de la distribución posterior para aplicar el algoritmo MCMC de Metropolis-Hastings?

Hay toneladas de ejemplos en los que una propuesta gaussiana puede usarse para posteriores truncados. Esto es solo un truco de implementación. Nuevamente, está haciendo una pregunta sin una solución general. Algunas propuestas incluso tienen un rendimiento diferente para el mismo modelo y diferentes conjuntos de datos.

Buena suerte.

Metanfetamina
fuente
Bueno, teniendo en cuenta que la matriz de covarianza debe ser positiva definida, no me parece lógico utilizar cualquier distribución de propuesta. Las matrices propuestas deben ser definitivas positivas. Una opción sería tener como propuesta el condicional posterior de Wishart utilizado en el muestreo de Gibbs, sin embargo, esto no pareció funcionar particularmente bien cuando asumí una t de Student para los efectos aleatorios. De ahí mi pregunta, ¿hay otros tipos de propuestas para matrices de covarianza?
Puesto de Toka el