¿Por qué es importante la mezcla de anteriores conjugados?

Tengo una pregunta sobre la mezcla de anteriores conjugados. Aprendí y digo la mezcla de anteriores conjugados un par de veces cuando estoy aprendiendo bayesiano. Me pregunto por qué este teorema es tan importante, cómo lo aplicaremos cuando hagamos un análisis bayesiano.

Para ser más específicos, un teorema de Diaconis e Ylivisaker 1985 ilustra un teorema como este:

Dado un modelo de muestreo de una familia exponencial, cualquier distribución previa puede ser aproximada por una mezcla finita de distribuciones anteriores conjugadas. $p(y|\theta)$

Más específicamente, dado , podemos derivar el posterior: $p(\theta)=\int p(\theta|\omega)p(\omega)d\omega$

$p(\theta|Y)\propto\int p(Y|\theta)p(\theta|\omega)p(\omega)d\omega\propto\int \frac{p(Y|\theta)p(\theta|\omega)}{p(Y|\omega)}p(Y|\omega)p(\omega)d\omega\propto \int p(\theta|Y, \omega)p(Y|\omega)p(\omega)d\omega$

Por lo tanto,

$p(\theta|Y)=\frac{\int p(\theta|Y, \omega)p(Y|\omega)p(\omega)d\omega}{\int p(Y|\omega)p(\omega)d\omega}$

bayesian conditional-probability hierarchical-bayesian conjugate-prior exponential-family Shijia Bian
fuente

Esta no es una respuesta a su pregunta, pero es bueno recordar que, en muchos casos, no tiene que usar los conjugados anteriores para el muestreo (marque aquí ).

Tim

El teorema que cita no es cierto. La versión que describe es sobre prioridades jerárquicas, no anteriores conjugadas . Por favor, reformule su pregunta correctamente.

Xi'an

@ Xi'an Gracias. Esta cita se origina en el documento < stats.stanford.edu/sites/default/files/EFS%20NSF%20207.pdf >. Está en la parte inferior de la página 13.

Shijia Bian

¡Oh, olvidó la "aproximación" y el "finito" en la declaración! "Cualquier prior puede ser aproximado por una mezcla finita de conjugados anteriores" es la cita correcta, con la aproximación que no funciona en términos de comportamiento de la cola.

Xi'an

@ Xi'an, ¿puedo tener otra pregunta? ¿Por qué deberíamos enfatizar siempre el modelo de mezcla "finita"? En otras palabras, ¿hay un modelo de mezcla infinita?

Shijia Bian

Respuestas:

El cálculo de posteriores con previos generales / arbitrarios directamente puede ser una tarea difícil.

Por otro lado, calcular posteriores con mezclas de anteriores conjugados es relativamente simple, ya que una mezcla dada de anteriores se convierte en la misma mezcla de los posteriores correspondientes.

[También hay muchos casos en los que algunos de los prior dados pueden ser bastante aproximados por una mezcla finita de anteriores conjugados; esto hace que sea muy fácil de aplicar y práctico en muchas situaciones, lo que lleva a posteriores aproximados que pueden estar bastante cerca a la exacta.]

Glen_b -Reinstate a Monica
fuente

El punto principal en Diaconis & Ylvisaker (1985) es, de hecho, mostrar que las mezclas finitas de conjugados son (a) conjugados y (b) ofrecen más flexibilidad que los conjugados originales. También requieren más información previa para decidir sobre los hiperparámetros, por lo que no se usan tanto. ¡Pero sigue siendo falso que cualquier prior sea una mezcla de anteriores conjugados!

Xi'an

Para extender la respuesta de @ Glen_b solo ligeramente, una implicación es que podemos obtener una aproximación de forma cerrada a la posterior cuando se utiliza un prior no conjugado al aproximar primero el prior no conjugado con una mezcla de anteriores conjugados y luego resolver directamente el posterior de la aproximación.

Sin embargo, en general, este método parece bastante complicado de usar. Si bien es cierto que puede hacer la mezcla antes de forma arbitraria cerca de la no conjugada anterior, generalmente habrá algún error en cualquier aproximación finita. Pequeños errores en el anterior pueden propagarse fácilmente a grandes errores en el posterior. Por ejemplo, si lo anterior está bien aproximado, excepto en las colas extremas, pero los datos proporcionan una fuerte evidencia de que los valores de los parámetros están en las colas extremas, estos errores en las colas extremas del previo conducirán a errores en regiones de alta probabilidad de posterior.

Acantilado
fuente