Cálculo de la probabilidad marginal de muestras de MCMC

24

Esta es una pregunta recurrente (vea esta publicación , esta publicación y esta publicación ), pero tengo un giro diferente.

Supongamos que tengo un montón de muestras de una muestra genérica de MCMC. Para cada muestra θ , conozco el valor del log de verosimilitud Iniciar sesiónF(XEl |θ) y del log anterior Iniciar sesiónF(θ) . Si ayuda, también sé el valor de la probabilidad de registro por punto de datos, Iniciar sesiónF(XyoEl |θ) (esta información ayuda con ciertos métodos, como WAIC y PSIS-LOO).

Quiero obtener una estimación (cruda) de la probabilidad marginal, solo con las muestras que tengo, y posiblemente algunas otras evaluaciones de función (pero sin volver a ejecutar un MCMC ad hoc ).

En primer lugar, despejemos la tabla. Todos sabemos que el estimador armónico es el peor estimador de la historia . Vamonos. Si está haciendo un muestreo de Gibbs con anteriores y posteriores en forma cerrada, puede usar el método de Chib ; pero no estoy seguro de cómo generalizar fuera de esos casos. También hay métodos que requieren que modifique el procedimiento de muestreo (como a través de posteriores templados ), pero no estoy interesado en eso aquí.

El enfoque en el que estoy pensando consiste en aproximar la distribución subyacente con una forma paramétrica (o no paramétrica) sol(θ) , y luego descubrir la constante de normalización Z como un problema de optimización 1-D (es decir, la Z que minimiza algún error entre Zsol(θ) y F(XEl |θ)F(θ) , evaluada sobre las muestras). En el caso más simple, supongamos que la parte posterior es aproximadamente multivariada normal, puedo ajustar sol(θ)como normal multivariante y obtener algo similar a una aproximación de Laplace (es posible que desee utilizar algunas evaluaciones de funciones adicionales para refinar la posición del modo). Sin embargo, podría usar como sol(θ) una familia más flexible, como una mezcla variacional de distribuciones multivariadas t.

Aprecio que este método solo funciona si Zsol(θ) es una aproximación razonable a F(XEl |θ)F(θ) , pero ¿hay alguna razón o una advertencia de por qué sería muy imprudente hacerlo? ¿Alguna lectura que recomendarías?

El enfoque totalmente no paramétrico utiliza alguna familia no paramétrica, como un proceso gaussiano (GP), para aproximar Iniciar sesiónF(XEl |θ)+Iniciar sesiónF(θ) (o alguna otra transformación no lineal de la misma, como la raíz cuadrada), y bayesiana cuadratura para integrarse implícitamente sobre el objetivo subyacente (ver aquí y aquí ). Este parece ser un enfoque alternativo interesante, pero análogo en espíritu (también, tenga en cuenta que los médicos de familia serían difíciles de manejar en mi caso).

lacerbi
fuente
66
Creo que Chib, S. y Jeliazkov, I. 2001 "Probabilidad marginal de la metrópoli - la producción de Hastings" se generaliza a las salidas normales de MCMC - estaría interesado en escuchar experiencias con este enfoque. En cuanto al GP, básicamente, esto se reduce a la emulación de la parte posterior, que también podría considerar para otros problemas. Supongo que el problema es que nunca estás seguro de la calidad de la aproximación. Lo que también me pregunto es si una muestra MCMC es ideal para un modelo GP, o si debería invertir más en las colas.
Florian Hartig
2
(+1) Gracias por la referencia, se ve bien, lo comprobaré. Estoy de acuerdo en que todos los enfoques basados ​​en modelos pueden ser problemáticos (lo bueno de la cuadratura bayesiana es que obtienes una estimación de la incertidumbre, aunque no estoy seguro de cuán calibrado está). Por el momento, mi modesto objetivo es hacer algo que sea "mejor que una aproximación de Laplace".
lacerbi

Respuestas:

26

Desafortunadamente, la extensión de Chib y Jeliazkov (2001) se vuelve rápidamente costosa o muy variable, razón por la cual no se usa mucho fuera de los casos de muestreo de Gibbs.

Si bien hay muchas formas y enfoques para el problema de la estimación constante de normalización (como lo ilustran las charlas bastante diversas en el taller Estimación constante que realizamos la semana pasada en la Universidad de Warwick, diapositivas disponibles allí ), algunas soluciones explotan directamente la salida de MCMC .Z

  1. Como mencionó, el estimador de la media armónica de Newton y Raftery (1994) es casi siempre pobre por tener una varianza infinita. Sin embargo, hay formas de evitar la maldición de varianza infinita utilizando en su lugar un objetivo de soporte finito en la identidad media armónica eligiendoαcomo el indicador de una región HPD para la posterior. Esto asegura una variación finita al eliminar las colas en la media armónica. (Los detalles se encuentran enun artículo que escribí con Darren Wraithy en uncapítulo sobre la normalización de las constantesescritas con Jean-Michel Marin.) En resumen, el método recicla la salida MCMCθ1,...,θMidentificando elβ( 20% dice) valores más grandes del objetivoπ(θ)f(x|θ)y creandoα

    α(θ)π(θ)F(XEl |θ)reπ(θEl |X)=1Z
    αθ1,...,θMETROβπ(θ)F(XEl |θ)α como un uniforme sobre la unión de las bolas centradas en esas simulaciones de mayor densidad (HPD) θyo0 0 y con el radio , es decir, la estimación de la constante de normalización Z viene dada por Z - 1 = 1ρZ sides la dimensión deθ(se aplican correcciones para las bolas que se cruzan) y siρes lo suficientemente pequeño como para que las bolas nunca se crucen (lo que significa que, en el mejor de los casos, solo un indicador en las bolas es diferente de cero). La explicación para eldenominadorαM2es que esta es una doble suma detérminosβM2: 1
    Z^-1=1βMETRO2metro=1METROsuma doble sobreβMETRO centros de pelota θyo0 0METRO simulaciones θmetroyo(0 0,ρ)(minyoEl |El |θmetro-θyo0 0El |El |){π(θmetro)F(XEl |θmetro)}-1/ /πre/ /2ρreΓ(re/ /2+1)-1volumen de bola con radio ρβMETROα(θmetro)π(θmetro)F(XEl |θmetro)
    reθραMETRO2βMETRO2
    1βMETROyo=1βMETRO1METROmetro=1METROU(θyo0 0,ρ)(θmetro)igual que con min×1π(θmetro)F(XEl |θmetro)
    with each term in θmetro integrating to Z-1.
  2. Otro enfoque es convertir la constante de normalización en un parámetro. Esto suena como una herejía estadística, pero el artículo de Guttmann y Hyvärinen (2012) me convenció de lo contrario. Sin entrar demasiado en detalles, la idea clara es convertir la probabilidad de registro observada n i = 1 f ( x i | θ ) - n log exp f ( x | θ ) d x en una probabilidad de registro conjunta n i = 1 [ fZ

    yo=1norteF(XyoEl |θ)-norteIniciar sesiónexpF(XEl |θ)reX
    que es la probabilidad logarítmica de un proceso de punto de Poisson con función de intensidad exp { f ( x | θ ) + ν + log n }
    yo=1norte[F(XyoEl |θ)+ν]-norteexp[F(XEl |θ)+ν]reX
    exp{F(XEl |θ)+ν+Iniciar sesiónnorte}
    Este es un modelo alternativo en el sentido de que la probabilidad original no aparece como marginal de lo anterior. Solo los modos coinciden, con el modo condicional en ν que proporciona la constante de normalización. En la práctica, la probabilidad del proceso de Poisson anterior no está disponible y Guttmann y Hyvärinen (2012) ofrecen una aproximación por medio de una regresión logística. Para conectarse aún mejor con su pregunta, la estimación de Geyer es un MLE, por lo tanto, la solución a un problema de maximización.
  3. π(θEl |X)π(θEl |X), sol(θ)y ejecutar una regresión logística en el índice de la distribución detrás de los datos (1 para π(θEl |X) y 0 para sol(θ)) Con los regresores siendo los valores de ambas densidades, normalizadas o no. Esto está directamente relacionado con el muestreo en puente de Gelman y Meng (1997), que también recicla muestras de diferentes objetivos. Y versiones posteriores, como el MLE de Meng.
  4. Un enfoque diferente que obliga a ejecutar un muestreador MCMC específico es el muestreo anidado de Skilling . Si bien yo [y otros] tengo algunas reservas sobre la eficiencia del método, es bastante popular en astrostatistics y cosmología, con software disponible como multinest .
  5. Una última solución [potencial, si no siempre posible] es explotar la representación Savage-Dickey del factor Bayes en el caso de una hipótesis nula incrustada. Si el nulo escribe comoH0 0:θ=θ0 0 sobre un parámetro de interés y si ξ es la parte restante [molestia] del parámetro del modelo, suponiendo un previo de la forma π1(θ)π2(ξ), el factor Bayes de H0 0 contra la alternativa escribe como
    si01(X)=πθ(θ0 0El |X)π1(θ0 0)
    dónde πθ(θ0 0El |X) denota la densidad posterior marginal de θ en el valor específico θ0 0. En caso de que la densidad marginal debajo de la nulaH0 0:θ=θ0 0
    metro0 0(X)=ΞF(XEl |θ0 0,ξ)π2(ξ)reξ
    está disponible en forma cerrada, se puede derivar la densidad marginal para el modelo sin restricciones
    metrouna(X)=Θ×ΞF(XEl |θ,ξ)π1(θ)π2(ξ)reθreξ
    del factor Bayes. (Esta representación de Savage-Dickey se basa en versiones específicas de tres densidades diferentes y, por lo tanto, está llena de peligros, sin mencionar siquiera el desafío computacional de producir el posterior marginal).

[Aquí hay un conjunto de diapositivas que escribí sobre la estimación de constantes de normalización para un taller de NIPS en diciembre pasado].

Xi'an
fuente
2
(+1) Respuesta increíblemente rica, gracias. Esto será útil para mí y, supongo, para muchas otras personas. Me llevará un tiempo echar un vistazo a los diversos enfoques, y luego podría volver con preguntas específicas.
lacerbi
2
A partir del punto (1) ... leí los artículos relevantes. El estimador de la media armónica "corregida" parece exactamente lo que estaba buscando. Es ordenado y fácil de calcular dada una salida MCMC. Entonces ... ¿cuál es el problema? No parece que el método se esté utilizando ampliamente, a juzgar por una búsqueda rápida en Google Scholar. ¿Cuáles son sus limitaciones? (además de la necesidad de identificar las regiones HPD, lo que imagino podría convertirse en un problema para posteriores muy complicados en alta dimensión). Definitivamente voy a intentarlo, pero me pregunto si hay algo de lo que deba tener cuidado.
lacerbi
2
Agregué algunos detalles más: el problema en la implementación del uniforme HPD es encontrar una aproximación compacta adecuada para la región HPD. El casco convexo de puntos con valores posteriores altos es (NP?) Difícil de determinar, mientras que las bolas centradas en esos puntos pueden cruzarse, lo que crea un problema constante de normalización secundaria.
Xi'an
2
@ Xi'an: muy útil, ¡gracias! ¿Puedo preguntar: de todos los enfoques mencionados, cuál sería actualmente su recomendación si uno busca un enfoque general que tiende a funcionar fuera de la caja (es decir, no se requiere ajuste / verificación del usuario)? Me interesaría especialmente el caso de modelos con un número bajo (<50) de parámetros, posteriores no normales y fuertes correlaciones entre parámetros.
Florian Hartig
1
@FlorianHartig: el hecho de que un software genérico como BUGS no devuelva una estimación genérica de Zes como revelar el alcance del problema. Las muchas soluciones que se pueden encontrar en la literatura especializada no han producido una estimación consensuada. Por lo tanto, mi recomendación sería optar por la solución de regresión logística de Geyer, que es algo insensible a la dimensión.
Xi'an