MCMC para manejar problemas de probabilidad plana

Tengo una probabilidad bastante plana de que el muestreador Metropolis-Hastings se mueva a través del espacio de parámetros de forma muy irregular, es decir, no se puede lograr la convergencia sin importar los parámetros de distribución de la propuesta (en mi caso, es gaussiana). No hay una gran complejidad en mi modelo, solo 2 parámetros, pero parece que MH no puede manejar esta tarea. Entonces, ¿hay algún truco en torno a este problema? ¿Hay una muestra que no produzca cadenas de Markov moviéndose muy lejos de las colas posteriores?

Actualización del problema:
intentaré reformular mi pregunta dando más detalles. En primer lugar describiré el modelo.
Tengo un modelo gráfico con dos nodos. Cada nodo se rige por un modelo de Auto-Poisson (Besag, 1974) de la siguiente manera: O, dado que solo hay dos nodos y suponiendo intensidades globales iguales :

p (X_{j} | X_{k} = x_{k}, \forall k \neq j, Θ) \sim P o i s s o n (e^{θ_{j} + \sum_{j \neq k} θ_{k j} x_{k}})

$p\left ( X_{j} |X_{k}=x_{k},\forall k\neq j,\Theta \right )\sim Poisson\left ( e^{\theta _{j}+\sum _{j\neq k}\theta _{kj}x_{k}} \right )$

p (X_{1} | X_{2} = x_{2}, θ, α) \sim P o i s s o n (e^{θ + α x_{2}})

$p\left ( X_{1} |X_{2}=x_{2},\theta, \alpha \right )\sim Poisson\left ( e^{\theta+\alpha x_{2}} \right )$

p (X_{2} | X_{1} = x_{1}, θ, α) \sim P o i s s o n (e^{θ + α x_{1}})

$p\left ( X_{2} |X_{1}=x_{1},\theta, \alpha \right )\sim Poisson\left ( e^{\theta+\alpha x_{1}} \right )$

Como es un campo de Markov, la distribución conjunta (o probabilidad de realización ) es la siguiente: Dado que supuse anteriores planas para y , posterior es entonces proporcional a Dado que $X=[x_{1},x_{2}]$

p (X) = \frac{e x p (θ (x_{1} + x_{2}) + 2 x_{1} x_{2} α)}{Z (θ, α)} = \frac{e x p (E (θ, α, X))}{Z (θ, α)}

$p\left ( X \right )=\frac{exp\left ( \theta \left ( x_{1}+x_{2} \right )+2 x_{1}x_{2} \alpha\right )}{Z\left ( \theta, \alpha \right )}=\frac{exp\left ( E\left ( \theta, \alpha, X \right ) \right )}{Z\left ( \theta, \alpha \right )}$

α

$\alpha$

θ

$\theta$

π (θ, α | X) \propto \frac{e x p (E (θ, α, X))}{Z (θ, α)}

$\pi(\theta, \alpha |X)\propto \frac{exp\left ( E\left ( \theta, \alpha, X \right ) \right )}{Z\left ( \theta, \alpha \right )}$

Z (θ, α)

$Z(\theta, \alpha)$ en general es muy difícil de evaluar (muchas sumas) Estoy usando un método de variable auxiliar debido a J. Moller (2006). De acuerdo con este método, primero dibujo una muestra de datos por la muestra de Gibbs (dado que los condicionales son solo distribuciones de Poisson), luego dibujo una propuesta de la distribución gaussiana y calculo en consecuencia los criterios de aceptación . Y aquí consigo una cadena salvaje de Markov. Cuando impongo algunos límites dentro de los cuales se puede mover la cadena, la muestra parece converger a alguna distribución, pero una vez que muevo al menos un límite, la distribución resultante también se mueve y siempre muestra la transición. Creo que @ Xi'an es wright: la parte posterior puede ser incorrecta.

X^{'}

${X}'$

H (X^{'}, α^{'}, θ^{'} | X, α, θ)

$H({X}',{\alpha}',{\theta}'|X, \alpha, \theta)$

mcmc likelihood posterior Tomás
fuente

Una posibilidad es usar un parámetro de mayor escala para obtener pasos más grandes. Quizás le interese el paquete R mcmcy el comando metroptambién. Probablemente necesitará una muestra adaptable. Este muestreador (el twalk) puede usarse en este tipo de casos dado que es adaptativo (tal vez solo como una "segunda opinión"). Se implementa en R, C y Python. Los códigos se pueden descargar desde una de las páginas web del autor .

@Procrastinator ¿Puedes dar más detalles sobre qué quieres decir con "parámetro de mayor escala"? ¿Significa utilizar parámetros de varianza más grandes para las propuestas?

Tomás

Permítanme aclarar primero que, si la probabilidad es plana, realmente no desea que su muestra no "se mueva muy lejos a la cola posterior". Lo que se desea es tomar muestras correctamente de la distribución (ambas, colas y centro). Al utilizar un algoritmo MH con propuestas gaussianas, debe elegir parámetros de escala / matriz de covarianza que determinen la longitud de los pasos. Deben elegirse para 1. Muestreo adecuado de la distribución y 2. Obtención de una tasa de aceptación razonable.

si solo tiene dos parámetros, entonces la integración numérica es probablemente una mejor alternativa

probabilidadislogica

Hay algo mal con la expresión de probabilidad conjunta. Si intenta sumar , obtiene . entonces la probabilidad es incorrecta como está escrita actualmente.

x_{1}

$x_1$

p (x_{2} | α θ) = g (x_{2}) \sum_{x_{1} = 0}^{\infty} \exp (x_{1} [θ + 2 α x_{2}]) = \infty

$p(x_2|\alpha\theta)=g(x_2)\sum_{x_1=0}^{\infty}\exp(x_1[\theta+2\alpha x_2])=\infty$

probabilityislogic

Respuestas:

Me parece sorprendente que una probabilidad plana produzca problemas de convergencia: ¡generalmente es el caso opuesto lo que causa problemas! La primera verificación habitual para tales situaciones es asegurarse de que su parte posterior sea correcta : de lo contrario, esto explicaría las interminables excursiones en las "colas". Si la parte posterior es realmente adecuada, podría usar propuestas de cola más gruesas como una distribución de Cauchy ... Y un algoritmo adaptativo a la Roberts y Rosenthal.

Si esto todavía "no funciona", sugiero considerar una reparametrización del modelo, utilizando por ejemplo (es decir, si no hay otra parametrización natural) una transformación logística, (con un posible parámetro de escala), que lleva el parámetro al cuadrado de la unidad.

φ (x) = \exp (x) / {1 + \exp (x)}

$\varphi(x) = \exp(x)/\{1+\exp(x)\}$

Con respecto a las respuestas anteriores, el muestreo de Gibbs suena como una solución más probable que aceptar-rechazar, lo que requiere encontrar un límite y escalar la distribución t hacia la parte posterior, lo que no parecía factible para la muestra más robusta de Metropolis-Hastings ...

Xi'an
fuente

@ Xian gracias por los comentarios sobre el voto negativo. ¿Existe realmente alguna situación en la que estaría a favor de aceptar-rechazar sobre MH?

gui11aume

@ gui11aume: si puede producir un algoritmo de aceptación-rechazo con un límite lo suficientemente pequeño como para garantizar una tasa de aceptación razonable, entonces aceptar-rechazar es indudablemente preferible a Metropolis-Hastings. Sin embargo, es poco probable que esto suceda con (a) grandes dimensiones y / o (b) objetivos complejos, posiblemente multimodales ...

Xi'an

¿Puedes anotar la distribución de tu primer parámetro condicional en tu segundo parámetro y viceversa? Si es así, el muestreo de Gibbs sería una opción viable. Es solo un par de líneas de código y puede mezclarse casi instantáneamente en muchos casos.

David J. Harris
fuente

EDITAR: Vea la respuesta de @ Xi'an y la discusión posterior para ver los problemas con el siguiente enfoque.

Si Metropolis-Hastings falla y su modelo es relativamente simple, podría pensar en usar el algoritmo de aceptación-rechazo con la distribución de Student con un bajo grado de libertad (1-6) para las propuestas. $t$

Si usa R, puede simular fácilmente una de Student con . Si no tiene una manera fácil de generar variables con su software, pero puede simular un , entonces dibujar la varianza de un gaussiano de un en cada paso y simular un gaussiano con esa varianza es equivalente. $t$ rt() $t$ $\Gamma$ $\Gamma$

gui11aume
fuente