Esta es una pregunta recurrente (vea esta publicación , esta publicación y esta publicación ), pero tengo un giro diferente.
Supongamos que tengo un montón de muestras de una muestra genérica de MCMC. Para cada muestra , conozco el valor del log de verosimilitud y del log anterior . Si ayuda, también sé el valor de la probabilidad de registro por punto de datos, (esta información ayuda con ciertos métodos, como WAIC y PSIS-LOO).
Quiero obtener una estimación (cruda) de la probabilidad marginal, solo con las muestras que tengo, y posiblemente algunas otras evaluaciones de función (pero sin volver a ejecutar un MCMC ad hoc ).
En primer lugar, despejemos la tabla. Todos sabemos que el estimador armónico es el peor estimador de la historia . Vamonos. Si está haciendo un muestreo de Gibbs con anteriores y posteriores en forma cerrada, puede usar el método de Chib ; pero no estoy seguro de cómo generalizar fuera de esos casos. También hay métodos que requieren que modifique el procedimiento de muestreo (como a través de posteriores templados ), pero no estoy interesado en eso aquí.
El enfoque en el que estoy pensando consiste en aproximar la distribución subyacente con una forma paramétrica (o no paramétrica) , y luego descubrir la constante de normalización como un problema de optimización 1-D (es decir, la que minimiza algún error entre y , evaluada sobre las muestras). En el caso más simple, supongamos que la parte posterior es aproximadamente multivariada normal, puedo ajustar como normal multivariante y obtener algo similar a una aproximación de Laplace (es posible que desee utilizar algunas evaluaciones de funciones adicionales para refinar la posición del modo). Sin embargo, podría usar como una familia más flexible, como una mezcla variacional de distribuciones multivariadas .
Aprecio que este método solo funciona si es una aproximación razonable a , pero ¿hay alguna razón o una advertencia de por qué sería muy imprudente hacerlo? ¿Alguna lectura que recomendarías?
El enfoque totalmente no paramétrico utiliza alguna familia no paramétrica, como un proceso gaussiano (GP), para aproximar (o alguna otra transformación no lineal de la misma, como la raíz cuadrada), y bayesiana cuadratura para integrarse implícitamente sobre el objetivo subyacente (ver aquí y aquí ). Este parece ser un enfoque alternativo interesante, pero análogo en espíritu (también, tenga en cuenta que los médicos de familia serían difíciles de manejar en mi caso).
fuente
Respuestas:
Desafortunadamente, la extensión de Chib y Jeliazkov (2001) se vuelve rápidamente costosa o muy variable, razón por la cual no se usa mucho fuera de los casos de muestreo de Gibbs.
Si bien hay muchas formas y enfoques para el problema de la estimación constante de normalización (como lo ilustran las charlas bastante diversas en el taller Estimación constante que realizamos la semana pasada en la Universidad de Warwick, diapositivas disponibles allí ), algunas soluciones explotan directamente la salida de MCMC .Z
Como mencionó, el estimador de la media armónica de Newton y Raftery (1994) es casi siempre pobre por tener una varianza infinita. Sin embargo, hay formas de evitar la maldición de varianza infinita utilizando en su lugar un objetivo de soporte finito en la identidad media armónica eligiendoαcomo el indicador de una región HPD para la posterior. Esto asegura una variación finita al eliminar las colas en la media armónica. (Los detalles se encuentran enun artículo que escribí con Darren Wraithy en uncapítulo sobre la normalización de las constantesescritas con Jean-Michel Marin.) En resumen, el método recicla la salida MCMCθ1,...,θMidentificando elβ( 20% dice) valores más grandes del objetivoπ(θ)f(x|θ)y creandoα
Otro enfoque es convertir la constante de normalización en un parámetro. Esto suena como una herejía estadística, pero el artículo de Guttmann y Hyvärinen (2012) me convenció de lo contrario. Sin entrar demasiado en detalles, la idea clara es convertir la probabilidad de registro observada n ∑ i = 1 f ( x i | θ ) - n log ∫ exp f ( x | θ ) d x en una probabilidad de registro conjunta n ∑ i = 1 [ fZ
fuente