Tengo una pregunta sobre la mezcla de anteriores conjugados. Aprendí y digo la mezcla de anteriores conjugados un par de veces cuando estoy aprendiendo bayesiano. Me pregunto por qué este teorema es tan importante, cómo lo aplicaremos cuando hagamos un análisis bayesiano.
Para ser más específicos, un teorema de Diaconis e Ylivisaker 1985 ilustra un teorema como este:
Dado un modelo de muestreo de una familia exponencial, cualquier distribución previa puede ser aproximada por una mezcla finita de distribuciones anteriores conjugadas.
Más específicamente, dado , podemos derivar el posterior:
Por lo tanto,
Respuestas:
El cálculo de posteriores con previos generales / arbitrarios directamente puede ser una tarea difícil.
Por otro lado, calcular posteriores con mezclas de anteriores conjugados es relativamente simple, ya que una mezcla dada de anteriores se convierte en la misma mezcla de los posteriores correspondientes.
[También hay muchos casos en los que algunos de los prior dados pueden ser bastante aproximados por una mezcla finita de anteriores conjugados; esto hace que sea muy fácil de aplicar y práctico en muchas situaciones, lo que lleva a posteriores aproximados que pueden estar bastante cerca a la exacta.]
fuente
Para extender la respuesta de @ Glen_b solo ligeramente, una implicación es que podemos obtener una aproximación de forma cerrada a la posterior cuando se utiliza un prior no conjugado al aproximar primero el prior no conjugado con una mezcla de anteriores conjugados y luego resolver directamente el posterior de la aproximación.
Sin embargo, en general, este método parece bastante complicado de usar. Si bien es cierto que puede hacer la mezcla antes de forma arbitraria cerca de la no conjugada anterior, generalmente habrá algún error en cualquier aproximación finita. Pequeños errores en el anterior pueden propagarse fácilmente a grandes errores en el posterior. Por ejemplo, si lo anterior está bien aproximado, excepto en las colas extremas, pero los datos proporcionan una fuerte evidencia de que los valores de los parámetros están en las colas extremas, estos errores en las colas extremas del previo conducirán a errores en regiones de alta probabilidad de posterior.
fuente