Al aproximar un posterior usando MCMC, ¿por qué no guardamos las probabilidades posteriores sino que usamos las frecuencias del valor del parámetro después?

8

Actualmente estoy estimando los parámetros de un modelo definido por varias ecuaciones diferenciales ordinarias (EDO). Intento esto con un enfoque bayesiano al aproximar la distribución posterior de los parámetros dados algunos datos usando Markov Chain Monte Carlo (MCMC).

Un muestreador MCMC genera una cadena de valores de parámetros donde utiliza la probabilidad posterior (no normalizada) de un cierto valor de parámetro para decidir (estocásticamente) si agregará ese valor a la cadena o si agregará nuevamente el valor anterior. Pero, parece ser la práctica que no es necesario guardar las probabilidades posteriores reales, sino que se calcula un histograma n-dimensional de los valores de parámetros resultantes generados y se calculan estadísticas resumidas como regiones de mayor densidad (HDR) de una distribución posterior de parámetros de este histograma. Al menos eso es lo que creo que aprendí del libro tutorial de Kruschkes sobre inferencia bayesiana .

Mi pregunta: ¿No sería más sencillo guardar las probabilidades posteriores de los valores de los parámetros muestreados junto con estos y aproximar la distribución posterior de estos valores y no de las frecuencias de los valores de los parámetros en la cadena MCMC? El problema de la fase de quemado no surgiría, ya que el muestreador inicialmente todavía tomaría muestras de regiones de baja probabilidad con más frecuencia de la que "merecería" por sus probabilidades posteriores, pero ya no sería el problema de darles valores de probabilidad excesivamente altos.

akraf
fuente
Si puede calcular las probabilidades posteriores sin usar MCMC (para guardarlas), ¿por qué le gustaría usarlo?
Tim
Porque necesito MCMC para ganar eficiencia. Si simplemente coloco una cuadrícula sobre el espacio de parámetros y calculo las probabilidades posteriores no normalizadas para todos los valores de parámetros resultantes, perdería mucho tiempo en regiones de baja probabilidad. Ser capaz de obtener valores de probabilidad posterior no normalizados para un valor de parámetro dado es una condición previa para usar MCMC. No necesito poder resolver el posterior analíticamente. Entonces podría tomar todos los valores de probabilidad guardados, dividirlos por su suma y el resultado sería una aproximación de mi posterior.
akraf
1
@Tim: lo que quiere decir es que para calcular la probabilidad de aceptación del movimiento propuesto, evalúa el posterior en el estado actual y en el estado propuesto. Si mantiene estos valores posteriores para cada estado alcanzado, el OP cree que puede derivar todo el posterior, pero ese no es el caso, al menos nunca he visto un teorema que lo demuestre. Al observar la distribución de los estados alcanzados, la teoría de Markov muestra que se obtiene una muestra de la parte posterior 'al final'
@ fcop sí, entiendo eso y creo que estamos diciendo lo mismo pero con diferentes palabras :)
Tim

Respuestas:

5

Esta es una pregunta interesante, con diferentes problemas:

  1. Los algoritmos MCMC no siempre reciclan el cálculo de la densidad posterior en todos los valores propuestos, pero algunas técnicas de reducción de varianza como Rao-Blackwellisation sí lo hacen. Por ejemplo, en un artículo de Biometrika de 1996 con George Casella, proponemos utilizar todos los valores simulados,θyo (yo=1,...,T), aceptado o no, introduciendo pesas ωyo que cambian el promedio
    yo=1Tωyoh(θyo)/ /yo=1Tωyo
    en un estimador casi imparcial. ( Casi debido a la normalización por la suma de los pesos).
  2. MCMC a menudo se usa en problemas de gran dimensión (parámetro). Proponer una aproximación a la parte posterior completa basada en los valores de densidad observados en algunos valores de parámetros es todo un desafío, incluida la cuestión de la constante de normalización mencionada en la respuesta y los comentarios de Tim. Uno puede imaginar un enfoque que es una mezcla de estimación de kernel no paramétrico (como por ejemplo, krigging ) y regresión, pero los expertos con los que discutí acerca de esta solución [hace unos años] se mostraron bastante escépticos. El problema es que el estimador resultante permanece no paramétrico y, por lo tanto, "disfruta" de velocidades de convergencia no paramétricas que son más lentas que las velocidades de convergencia de Monte Carlo, cuanto peor es la dimensión.
  3. Otro uso potencial de la disponibilidad de los valores posteriores π(θEl |re) es ponderar cada valor simulado por su posterior asociado, como en
    1Tt=1Th(θt)π(θtEl |re)
    Desafortunadamente, esto crea un sesgo ya que los valores simulados ya están simulados desde la parte posterior:
    mi[h(θt)π(θtEl |re)]=h(θ)h(θt)π(θtEl |re)2reθ
    Incluso sin un problema de normalización, esas simulaciones deberían estar dirigidas π(θEl |re)1/ /2 y usar un peso proporcional a π(θEl |re)1/ /2pero no conozco resultados que aboguen por este cambio de objetivo. Como mencionas en los comentarios, esto está relacionado con el temple en que todas las simulaciones producidas dentro de un ciclo de temple simulado pueden reciclarse para fines de Monte Carlo (integración) de esta manera. Sin embargo, un problema numérico es manejar varias funciones importantes del formularioπ(θ)1/ /T con constantes de normalización faltantes.
Xi'an
fuente
2
Gracias por sus extensos comentarios, ¡permítanme algunas preguntas aclaratorias! No entiendo lo que quiere decir con "reciclar" en su punto 1 y cómo eso impide el uso de los valores posteriores no normalizados. Al punto 2: si la "aproximación a todo el posterior basada en los valores de densidad observados en algunos valores de parámetros es todo un desafío", ¿por qué es menos si se usan solo las frecuencias de las muestras resultantes del proceso MCMC?
akraf
1
Al punto 3: orientación π(θEl |re)1/ /T con T>1 es una forma común de "templar" la parte posterior, es decir, "aplanar sus picos" para facilitar la mezcla de las cadenas MCMC, donde el aplanamiento es más fuerte, mayor Tes. ¿Podría el enfoque que sugirió ser una forma de recuperar la distribución original sin restriccionesπ(θEl |re), dadas muestras de la distribución templada π(θEl |re)1/ /T?
akraf
2

Como notó correctamente, las probabilidades con las que estamos lidiando no están normalizadas . Básicamente, usamos MCMC para calcular el factor de normalización en el teorema de Bayes. No podemos usar las probabilidades porque no están normalizadas. El procedimiento que sugiere: para guardar las probabilidades no normalizadas y luego dividirlas por su suma es incorrecto.

Déjame mostrártelo con el ejemplo. Imagine que utiliza Monte Carlo para dibujar diez valores de la distribución de Bernoulli parametrizados porpags=0.9, son los siguientes:

1 0 1 1 1 1 1 1 1 1

También tiene probabilidades correspondientes:

0.9 0.1 0.9 0.9 0.9 0.9 0.9 0.9 0.9 0.9

En este caso, las probabilidades se normalizan, pero dividirlas por su suma (que por axiomas de probabilidad es igual a la unidad) no debería cambiar nada. Desafortunadamente, el uso de su procedimiento que hace cambiar los resultados a:

> f/sum(f)
 [1] 0.10975610 0.01219512 0.10975610 0.10975610 0.10975610 0.10975610 0.10975610 0.10975610 0.10975610 0.10975610

¿Porqué es eso? La respuesta es simple: en su muestra, cada "probabilidad" guardada faparece con probabilidad f, por lo que está sopesando las probabilidades por sí mismas.

Tim
fuente