¿Son apropiados los métodos basados en MCMC cuando la estimación máxima a posteriori está disponible?

13

He notado que en muchas aplicaciones prácticas, los métodos basados en MCMC se usan para estimar un parámetro a pesar de que el posterior es analítico (por ejemplo, porque los anteriores fueron conjugados). Para mí, tiene más sentido usar estimadores MAP en lugar de estimadores basados en MCMC. ¿Alguien podría señalar por qué MCMC sigue siendo un método apropiado en presencia de un analítico posterior?

bayesian mcmc posterior Holografía
fuente

2

¿Puedes dar un ejemplo de esto en la práctica? Tenga en cuenta que hay una diferencia de un ser anterior conjugado y condicionalmente conjugado . En muchas aplicaciones de muestreo de Gibbs, los anteriores elegidos son condicionalmente conjugados, pero el anterior en sí mismo no es conjugado; por ejemplo, considere la asignación de Dirichlet latente.

chico

44

No está claro qué tiene que ver MAP con esto también. El estimador de Bayes es la media posterior, no el modo posterior. Incluso cuando los anteriores no están conjugados, a menudo puede hacer alguna optimización para obtener el estimador MAP; STAN hace esto por más o menos cualquier previo. El punto de hacer MCMC es estimar la distribución posterior, que tiene mucha más información que solo el estimador MAP.

chico

12

No es necesario usar MCMC en este caso: Markov Chain Monte-Carlo (MCMC) es un método utilizado para generar valores a partir de una distribución. Produce una cadena de Markov de valores auto correlacionados con distribución estacionaria igual a la distribución objetivo. Este método seguirá funcionando para obtener lo que desea, incluso en los casos en que la distribución de destino tenga una forma analítica. Sin embargo, existen métodos más simples y menos intensivos en cómputo que funcionan en casos como este, donde se trata de un posterior que tiene una buena forma analítica.

En el caso donde la distribución posterior tiene una forma analítica disponible, es posible obtener estimaciones de parámetros (por ejemplo, MAP) mediante la optimización de esa distribución utilizando técnicas de cálculo estándar. Si la distribución objetivo es lo suficientemente simple, puede obtener una solución de forma cerrada para el estimador de parámetros, pero incluso si no lo es, generalmente puede usar técnicas iterativas simples (por ejemplo, Newton-Raphson, descenso de gradiente, etc.) para encontrar el optimización de la estimación de parámetros para cualquier dato de entrada dado. Si tiene una forma analítica para la función cuantil de la distribución objetivo y necesita generar valores a partir de la distribución, puede hacerlo a través del muestreo de transformación inversa, que es menos computacionalmente intensivo que MCMC y le permite generar valores IID en lugar de valores con patrones complejos de autocorrelación.

En vista de esto, si estaba programando desde cero, entonces no parece haber ninguna razón para usar MCMC en el caso de que la distribución de destino tenga una forma analítica disponible. La única razón por la que podría hacerlo es si ya tiene un algoritmo genérico para MCMC escrito, que puede implementarse con un mínimo esfuerzo, y decide que la eficacia del uso de la forma analítica se ve compensada por el esfuerzo para hacer las matemáticas requeridas. En ciertos contextos prácticos, se enfrentará a problemas que generalmente son intratables, donde los algoritmos MCMC ya están configurados y pueden implementarse con un esfuerzo mínimo (por ejemplo, si realiza análisis de datos enRStan) En estos casos, puede ser más fácil ejecutar sus métodos MCMC existentes en lugar de derivar soluciones analíticas a los problemas, aunque este último, por supuesto, puede usarse como un control de su trabajo.

Reinstalar a Mónica
fuente

10

$\pi(\theta)$

min_{δ} \int_{Θ} L (θ, δ) \tilde{π} (θ) F (X El | θ) re θ

$\min_\delta\int_\Theta \text{L}(\theta,\delta)\,\tilde\pi(\theta)\,f(x|\theta)\,\text{d}\theta$

\tilde{π} (\cdot) \propto π (\cdot)

$\tilde\pi(\cdot)\propto\pi(\cdot)$

\int \tilde{π} (θ) re θ

$\int \tilde\pi(\theta)\,\text{d}\theta$

x, y \in (0, 1)

$x,y\in(0,1)$

f_{θ} (x, y) = \frac{1 + θ [(1 + x) (1 + y) - 3] + θ^{2} (1 - x) (1 - y))}{[1 - θ (1 - x) (1 - y)]^{3}} θ \in (- 1, 1)

$f_\theta(x,y)=\dfrac{1+\theta[(1+x)(1+y)-3]+\theta^2(1-x)(1-y)) }{[1-\theta(1-x)(1-y)]^3}\qquad\theta\in(-1,1)$

Φ^{- 1} (X)

$\Phi^{-1}(X)$

Y = y

$Y=y$

Φ (.)

$\Phi(.)$

Tenga en cuenta también que el estimador máximo a posteriori no es el estimador más natural en un entorno bayesiano, ya que no corresponde a una función de pérdida y esa representación en forma cerrada de la densidad, incluso hasta una constante, no hace que encontrar el MAP necesariamente fácil O utilizando el MAP relevante.

Xi'an
fuente

2

Mientras lo leo, esta pregunta es hacer dos preguntas algo ortogonales. Uno es si uno usa estimadores MAP sobre medios posteriores, y el otro es si uno debe MCMC si el posterior tiene una forma analítica.

En lo que respecta a los estimadores MAP sobre las medias posteriores, desde una perspectiva teórica, generalmente se prefieren las medias posteriores, como @Xian señala en su respuesta. La ventaja real de los estimadores MAP es que, especialmente en el caso más típico en el que la parte posterior no está en forma cerrada, se pueden calcular mucho más rápido (es decir, varios órdenes de magnitud) que una estimación de la media posterior. Si el posterior es aproximadamente simétrico (lo que a menudo es el caso en muchos problemas con muestras de gran tamaño), la estimación de MAP debe estar muy cerca de la media posterior. Entonces, el atractivo del MAP es en realidad que puede ser una aproximación muy barata de la media posterior.

Tenga en cuenta que conocer la constante de normalización no nos ayuda a encontrar el modo posterior, por lo que tener una solución de forma cerrada para el posterior técnicamente no nos ayuda a encontrar la estimación MAP, fuera del caso en el que reconocemos el posterior como una distribución específica para la cual Sabemos que es el modo.

Con respecto a la segunda pregunta, si uno tiene una forma cerrada, la distribución posterior, en general, no hay razón para usar algoritmos MCMC. Teóricamente, si tenía una solución de forma cerrada para la distribución posterior, pero no tenía una forma cerrada para la media de alguna función y no podía tomar sorteos directamente de esta distribución de forma cerrada, entonces uno podría recurrir a los algoritmos MCMC. Pero no conozco ningún caso de esta situación.

Acantilado
fuente

1

Yo diría que los métodos MCMC no son necesariamente inapropiados , incluso cuando existen soluciones de forma cerrada. Obviamente, es bueno cuando existe una solución analítica: generalmente son rápidas, evita preocupaciones sobre la convergencia (etc.).

Por otro lado, la consistencia también es importante. Cambiar de técnica en técnica complica su presentación: en el mejor de los casos, son detalles extraños los que pueden confundir o distraer a la audiencia de su resultado sustantivo, y en el peor de los casos, podría parecer un intento de sesgar los resultados. Si tuviera varios modelos, solo algunos de los cuales admiten soluciones de forma cerrada, consideraría encarecidamente ejecutarlos a través de la misma tubería MCMC, incluso si no fuera estrictamente necesario.

Sospecho que esto, más la inercia ("tenemos este script que funciona") explica la mayor parte de lo que estás viendo.

Matt Krause
fuente

¿Son apropiados los métodos basados ​​en MCMC cuando la estimación máxima a posteriori está disponible?

Respuestas:

¿Son apropiados los métodos basados en MCMC cuando la estimación máxima a posteriori está disponible?