No conjugado previo

8

¿Alguien puede explicar por qué la integral en la densidad posterior puede no ser "analíticamente manejable" si la anterior que elegimos no es conjugada?


fuente
3
Considere el modelo de Binomia: no es posible encontrar una expresión analítica para la integral 0 01θX(1-θ)norte-Xπ(θ)reθ por cada previo π(θ).
Zen
44
@Zen que probablemente valga la pena expandir (solo un poco; básicamente cubre el problema subyacente bastante bien) en una respuesta.
Glen_b -Reinstala a Mónica el
Tienes 100% de razón, @Glen_b, pero no estoy seguro de cómo debemos explicar esto. El punto es que si el posterior es de la misma familia, no hacemos la integración en absoluto. Simplemente identificamos el "núcleo" de la densidad. Es algo que se aclara cuando lo hacemos muchas veces.
Zen
No te preocupes @ Zen, voy a arriesgar una respuesta.
Glen_b -Reinstate Monica

Respuestas:

13

La conjugación es buena porque significa que si puedes lidiar con el pdf en el anterior, deberías poder hacer lo mismo con el posterior (ya que son de la misma forma), pero por supuesto a veces quieres un prior que sea no conjugado

¿Cómo surge la trazabilidad de las integrales en un cálculo bayesiano práctico?

Imaginemos que deseamos hacer alguna inferencia sobre un parámetro θ:

pags(θEl |X)pags(XEl |θ)pags(θ)

donde el primer término a la derecha es la probabilidad y el segundo término es el anterior. El problema es básicamente evaluar la constante de proporcionalidad requerida para obtener una densidad a la derecha; y es posible que desee poder hacer varias cosas con él (por ejemplo, dibujarlo; encontrar estadísticas de resumen: su media, su modo o algunos cuantiles; tal vez incluso muestrearlo). De todos modos, ser capaz de encontrar esa integral de alguna manera sería útil, y quizás lo más natural y obvio es intentar encontrarla 'algebraicamente', es decir, usar la bolsa habitual de trucos para evaluar integrales.

Por lo general, lo que realmente queremos decir con intratable es "analíticamente intratable", pero a veces se usa un poco más libremente. En cierto sentido, "la mayoría" de las integrales son intratables, para varios valores de 'intratable' (desplácese hacia abajo hasta la discusión de integrales).

Ejemplo

Como Zen señala incluso para ese ejemplo muy simple de un modelo binomial, no hay garantía de que pueda hacer la integración para el posterior en el parámetro algebraicamente.

Aquí hay un ejemplo diferente (una versión simplificada de algo que he visto aparecer):

Considere un posterior bayesiano para la varianza, σ2 de una distribución normal con media conocida μ. El prior conjugado es gamma inverso, pero ¿y si quisiéramos un prior lognormal?

Entonces tendríamos efectivamente una integral cuyo integrando es de la forma

pags(σ2El |μ,y)pags(yEl |μ,σ2)pags(σ2)

donde de nuevo el primer término a la derecha de la es la probabilidad y la segunda es la anterior.

Esa probabilidad es de la forma:

F(σ2;α,β)=βαΓ(α)(σ2)-α-1Exp(-βσ2)

dónde α y β son funciones simples de los datos, y, el tamaño de la muestra, nortey μ, y el anterior es de la forma:

F(σ2;θ,τ)=1σ2τ2πmi-(Enσ2-θ)22τ2

... y el producto de esos no es algebraicamente "agradable" para tratar. Por ejemplo, Wolfram Alpha no puede hacer la integral *, y es más probable que obtenga algo como esto en un tiempo razonable que yo.

* (específicamente, podemos soltar las constantes y combinar términos, y poner X para σ2 para suministrar X-α-2Exp(-βX-(EnX-θ)22τ2)para el integrando, y la integral indefinida de eso es lo que Wolfram Alpha no puede hacer. Tal vez hay una manera de obtenerlo, o algo más, para hacer la integral definida(0 0,), aunque.)

Discusión de algunos enfoques de la intratabilidad analítica.

Si no fuera por el hecho de que las personas a menudo tienden a elegir antecedentes analíticamente `` agradables '' (especialmente al enseñar el tema, pero también con frecuencia en problemas reales), sería un problema que surge casi siempre. Eso no quiere decir que elegir antecedentes analíticamente agradables sea incorrecto; por lo general, solo tenemos un sentido vago de nuestra información previa (rara vez tengo en mente una distribución previa específica, aunque es posible que tenga alguna noción sobre los valores posibles o probables). un sentido amplio de dónde quiero que esté la mayor parte de la probabilidad de mi previo, o más o menos aproximadamente dónde podría estar la media, por ejemplo, si no sé qué forma funcional específica quiero para mi prior y un prior conjugado reflejar la información que quiero tener en mi anterior, que a menudo puede ser una opción bastante razonable).

Sin embargo, en un sentido práctico, todavía es bastante posible abordar este problema de varias maneras. Podemos, por ejemplo, aproximar el posterior a diferentes grados de precisión. Aquí hay algunos ejemplos (de ninguna manera exhaustivos): (i) aproximando el previo deseado de varias maneras, tal vez por una mezcla de conjugados o anteriores tratables de otro modo, produciendo una mezcla correspondiente para el posterior, o (ii) por integración numérica adecuada (que en el caso univariante puede funcionar sorprendentemente bien), o (iii) podemos simular a partir de esta distribución sin saber esa integral, tal vez a través del muestreo de rechazo , o a través de una cadena de Markov tipo Montekov de Metrópolis-Hastings algoritmo, siempre que tengamos una función de límite adecuada o aproximada, respectivamente).

En el pasado, los enfoques comunes a estos problemas tendían a incluir la integración numérica (o la integración de Monte Carlo en dimensiones superiores) y la aproximación de Laplace . De hecho, todavía se usan en muchos problemas, pero tenemos muchas otras herramientas.

Dado que actualmente se realiza tanto trabajo bayesiano utilizando varias versiones de MCMC y enfoques de muestreo relacionados, la capacidad de análisis es mucho menos problemática de lo que podría haber sido, incluso con problemas con un gran número de parámetros: he visto los tres los enfoques que mencioné anteriormente utilizados en ese contexto; Esto significa que somos más o menos libres de elegir justo lo que deseamos, en función de lo bien que refleje nuestro conocimiento previo, o por su capacidad de regularizar la inferencia, por su idoneidad para nuestra inferencia en lugar de la facilidad de manipulación algebraica. Entonces, por ejemplo, Andrew Gelman aboga por el uso de las anteriores mitad-Cauchy y mitad-t en los parámetros de varianza en modelos jerárquicos, yantecedentes de Cauchy débilmente informativos en regresión logística (sin embargo, ese documento no está utilizando MCMC, sino que está logrando una inferencia aproximada a través de EM junto con los mínimos cuadrados usualmente re ponderados iterativamente para la regresión logística).

Glen_b -Reinstate a Monica
fuente