Actualmente estoy estimando los parámetros de un modelo definido por varias ecuaciones diferenciales ordinarias (EDO). Intento esto con un enfoque bayesiano al aproximar la distribución posterior de los parámetros dados algunos datos usando Markov Chain Monte Carlo (MCMC).
Un muestreador MCMC genera una cadena de valores de parámetros donde utiliza la probabilidad posterior (no normalizada) de un cierto valor de parámetro para decidir (estocásticamente) si agregará ese valor a la cadena o si agregará nuevamente el valor anterior. Pero, parece ser la práctica que no es necesario guardar las probabilidades posteriores reales, sino que se calcula un histograma n-dimensional de los valores de parámetros resultantes generados y se calculan estadísticas resumidas como regiones de mayor densidad (HDR) de una distribución posterior de parámetros de este histograma. Al menos eso es lo que creo que aprendí del libro tutorial de Kruschkes sobre inferencia bayesiana .
Mi pregunta: ¿No sería más sencillo guardar las probabilidades posteriores de los valores de los parámetros muestreados junto con estos y aproximar la distribución posterior de estos valores y no de las frecuencias de los valores de los parámetros en la cadena MCMC? El problema de la fase de quemado no surgiría, ya que el muestreador inicialmente todavía tomaría muestras de regiones de baja probabilidad con más frecuencia de la que "merecería" por sus probabilidades posteriores, pero ya no sería el problema de darles valores de probabilidad excesivamente altos.
Respuestas:
Esta es una pregunta interesante, con diferentes problemas:
fuente
Como notó correctamente, las probabilidades con las que estamos lidiando no están normalizadas . Básicamente, usamos MCMC para calcular el factor de normalización en el teorema de Bayes. No podemos usar las probabilidades porque no están normalizadas. El procedimiento que sugiere: para guardar las probabilidades no normalizadas y luego dividirlas por su suma es incorrecto.
Déjame mostrártelo con el ejemplo. Imagine que utiliza Monte Carlo para dibujar diez valores de la distribución de Bernoulli parametrizados porp = 0.9 , son los siguientes:
También tiene probabilidades correspondientes:
En este caso, las probabilidades se normalizan, pero dividirlas por su suma (que por axiomas de probabilidad es igual a la unidad) no debería cambiar nada. Desafortunadamente, el uso de su procedimiento que hace cambiar los resultados a:
¿Porqué es eso? La respuesta es simple: en su muestra, cada "probabilidad" guardada
f
aparece con probabilidadf
, por lo que está sopesando las probabilidades por sí mismas.fuente