¿Alguien puede explicar anteriores conjugados en términos más simples posibles?

23

He estado tratando de entender la idea de conjugar los antecedentes en las estadísticas bayesianas por un tiempo, pero simplemente no lo entiendo. ¿Alguien puede explicar la idea en los términos más simples posibles, quizás utilizando el "previo gaussiano" como ejemplo?

Jenna Maiz
fuente

Respuestas:

23

Un previo para un parámetro casi siempre tendrá alguna forma funcional específica (escrita en términos de densidad, generalmente). Digamos que nos restringimos a una familia particular de distribuciones, en cuyo caso elegir nuestro previo se reduce a elegir los parámetros de esa familia.

Por ejemplo, considere un modelo normal YiiidN(μ,σ2) . Por simplicidad, tomemos también σ2 como se conoce. Esta parte del modelo, el modelo para los datos, determina la función de probabilidad.

Para completar nuestro modelo bayesiano, aquí necesitamos un previo para μ .

Como se mencionó anteriormente, comúnmente podríamos especificar alguna familia de distribución para nuestro anterior para μ y luego solo tenemos que elegir los parámetros de esa distribución (por ejemplo, a menudo la información previa puede ser bastante vaga, como más o menos donde queremos que se concentre la probabilidad) en lugar de una forma funcional muy específica, y podemos tener suficiente libertad para modelar lo que queremos al elegir los parámetros, por ejemplo, para que coincidan con una media y varianza anteriores).

Si resulta que la posterior para μ es de la misma familia que la anterior, entonces se dice que la anterior es "conjugada".

(Lo que hace que resulte ser conjugado es la forma en que se combina con la probabilidad)

Entonces, en este caso, tomemos un gaussiano anterior para (digamos μ N ( θ , τ 2 ) ). Si hacemos eso, vemos que la posterior para μ también es gaussiana. En consecuencia, el prior gaussiano fue un prior conjugado para nuestro modelo anterior.μμN(θ,τ2)μ

Eso es todo lo que hay que hacer realmente: si el posterior es de la misma familia que el anterior, es un anterior conjugado.

En casos simples, puede identificar un conjugado antes mediante la inspección de la probabilidad. Por ejemplo, considere una probabilidad binomial; dejando caer las constantes, parece una densidad beta en ; y debido a la forma en que se combinan los poderes de p y ( 1 - p ) , se multiplicará por una beta antes de dar también un producto de los poderes de p y ( 1 - p ) ... para que podamos ver de inmediato la probabilidad de que la beta será un conjugado previo para p en la probabilidad binomial.pp(1p)p(1p)p

En el caso gaussiano, es más fácil ver que sucederá considerando las densidades logarítmicas y la probabilidad logarítmica; la log-verosimilitud será cuadrática en y la suma de dos cuadráticos es cuadrática, por lo que un log-anterior cuadrático + verosimilitud cuadrática da un cuadrático posterior (cada uno de los coeficientes del término de orden más alto será, por supuesto, negativo).μ

Glen_b -Reinstate a Monica
fuente
9

Si su modelo pertenece a una familia exponencial , es decir, si la densidad de la distribución es de la forma

f(x|θ)=h(x)exp{T(θ)S(x)ψ(θ)}xXθΘ
con respecto a unamedida dominante dada(Lebesgue, contando, y tc.), dondets denota un producto escalar sobreRd y
T:XRdS:ΘRd
son funciones medibles, los anteriores conjugados enθ están definidos por densidades de la forma
π(θ|ξ,λ)=C(ξ,λ)exp{T(θ)ξλψ(θ)}
[con respecto a unamedida dominante elegida arbitrariamente dν enΘ ] con
C(ξ,λ)1=Θexp{T(θ)ξλψ(θ)}dν<
yλΛR+ ,ξΞλT(X)

La elección de la medida dominante es determinante para la familia de los antecedentes. Si, por ejemplo, uno se enfrenta a una probabilidad media normal en μ como en la respuesta de Glen_b , elegir la medida de Lebesgue dμ ya que la medida dominante conduce a que las anteriores normales se conjuguen. Si, en cambio, se elige (1+μ2)2dμ como la medida dominante, los anteriores conjugados están dentro de la familia de distribuciones con densidades

exp{α(μμ0)2}α>0,  μ0R
con respecto a esta medida dominante y, por lo tanto, ya no son anteriores normales. Esta dificultad es esencialmente la misma que la de elegir una parametrización particular de la probabilidad y optar por la medida de Lebesgue para esta parametrización. Cuando se enfrenta a una función de probabilidad, no existe una medida dominante inherente (o intrínseca o de referencia) en el espacio de parámetros.

Fuera de este entorno familiar exponencial, no existe una familia no trivial de distribuciones con un soporte fijo que permita conjugar a los anteriores. Esta es una consecuencia del lema Darmois-Pitman-Koopman .

Xi'an
fuente
11
"¿En los términos más simples posibles?" Quizás una explicación que no asume el conocimiento previo de las medidas sería más útil para el PO.
3
Por desgracia, me temo que los antecedentes conjugados no tienen sentido sin un fondo de medida (a pesar de que este es el secreto mejor guardado en el Universo).
Xi'an
66
En mi opinión, los "términos más simples posibles" están abiertos a interpretación, y una explicación que hace uso de las matemáticas avanzadas, como la teoría de la medida, podría ser "simple" en algún sentido, tal vez incluso "más simple" que una explicación que evite dicha maquinaria. En cualquier caso, tal explicación puede ser muy esclarecedora para alguien que tenga los antecedentes necesarios para comprenderla, y es inofensivo incluir una respuesta como esta en una lista de varias formas de explicar un tema. Escribimos respuestas no solo para OP sino para todos los futuros lectores.
littleO
1
@LBogaardt Su crítica tendría más peso si pudiera vincular a una o más preguntas donde cree que esta respuesta sería tanto sobre el tema como a un nivel más adecuado. Tenga en cuenta que "simple" no es un término bien definido y tiene diferentes interpretaciones subjetivas. De todos modos, sería inválido combinarlo con "matemáticamente poco sofisticado", como lo sugieren sus comentarios.
whuber
2
La respuesta de Xi'an no es inútil para mí. Aprendí algo
littleO
2

Me gusta usar la noción de un "núcleo" de una distribución. Aquí es donde solo se dejan las partes que dependen del parámetro. Algunos ejemplos simples.

Núcleo normal

p(μ|a,b)=K1×exp(aμ2+bμ)
Donde K es la "constante de normalización" K=exp(aμ2+bμ)dμ=πaexp(b24a) La conexión con los parámetros estándar de media / varianza esE(μ|a,b)=b2a yVar(μ|a,b)=12a

Núcleo beta

p(θ|a,b)=K1×θa(1θ)b
Donde K=θa(1θ)bdθ=Beta(a+1,b+1)

Cuando observamos la función de probabilidad, podemos hacer lo mismo y expresarla en "forma de núcleo". Por ejemplo con datos iid

p(D|μ)=i=1np(xi|μ)=Q×f(μ)

Qf(μ)

p(D|μ)=i=1np(xi|μ)=i=1n12πexp((xiμ)22)=[i=1n12π]×i=1nexp((xiμ)22)=(2π)n2×exp(i=1n(xiμ)22)=(2π)n2×exp(i=1nxi22xiμ+μ22)=(2π)n2×exp(i=1nxi22)×exp(μi=1nxiμ2n2)=Q×exp(aμ2+bμ)

where a=n2 and b=i=1nxi and Q=(2π)n2×exp(i=1nxi22)

This likelihood function has the same kernel as the normal distribution for μ, so a conjugate prior for this likelihood is also the normal distribution.

p(μ|a0,b0)=K01exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)K01exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K01×Q×exp([a+a0]μ2+[b+b0]μ)exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.

probabilityislogic
fuente
1
(+1) I appreciate the pseudo-data intuition!
Xi'an
1

For a given distribution family Dlik of the likelihood (e.g. Bernoulli),

if the prior is of the same distribution family Dpri as the posterior (e.g. Beta),

then Dpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: p(θ|x)posteriorp(x|θ)likelihoodp(θ)prior

Thomas G.
fuente
How does this explain what a conjugate prior is?
LBogaardt
ok I'll edit that.
Thomas G.