Un previo para un parámetro casi siempre tendrá alguna forma funcional específica (escrita en términos de densidad, generalmente). Digamos que nos restringimos a una familia particular de distribuciones, en cuyo caso elegir nuestro previo se reduce a elegir los parámetros de esa familia.
Por ejemplo, considere un modelo normal Yi∼iidN(μ,σ2) . Por simplicidad, tomemos también σ2 como se conoce. Esta parte del modelo, el modelo para los datos, determina la función de probabilidad.
Para completar nuestro modelo bayesiano, aquí necesitamos un previo para μ .
Como se mencionó anteriormente, comúnmente podríamos especificar alguna familia de distribución para nuestro anterior para μ y luego solo tenemos que elegir los parámetros de esa distribución (por ejemplo, a menudo la información previa puede ser bastante vaga, como más o menos donde queremos que se concentre la probabilidad) en lugar de una forma funcional muy específica, y podemos tener suficiente libertad para modelar lo que queremos al elegir los parámetros, por ejemplo, para que coincidan con una media y varianza anteriores).
Si resulta que la posterior para μ es de la misma familia que la anterior, entonces se dice que la anterior es "conjugada".
(Lo que hace que resulte ser conjugado es la forma en que se combina con la probabilidad)
Entonces, en este caso, tomemos un gaussiano anterior para (digamos μ ∼ N ( θ , τ 2 ) ). Si hacemos eso, vemos que la posterior para μ también es gaussiana. En consecuencia, el prior gaussiano fue un prior conjugado para nuestro modelo anterior.μμ∼N(θ,τ2)μ
Eso es todo lo que hay que hacer realmente: si el posterior es de la misma familia que el anterior, es un anterior conjugado.
En casos simples, puede identificar un conjugado antes mediante la inspección de la probabilidad. Por ejemplo, considere una probabilidad binomial; dejando caer las constantes, parece una densidad beta en ; y debido a la forma en que se combinan los poderes de p y ( 1 - p ) , se multiplicará por una beta antes de dar también un producto de los poderes de p y ( 1 - p ) ... para que podamos ver de inmediato la probabilidad de que la beta será un conjugado previo para p en la probabilidad binomial.pp(1−p)p(1−p)p
En el caso gaussiano, es más fácil ver que sucederá considerando las densidades logarítmicas y la probabilidad logarítmica; la log-verosimilitud será cuadrática en y la suma de dos cuadráticos es cuadrática, por lo que un log-anterior cuadrático + verosimilitud cuadrática da un cuadrático posterior (cada uno de los coeficientes del término de orden más alto será, por supuesto, negativo).μ
Me gusta usar la noción de un "núcleo" de una distribución. Aquí es donde solo se dejan las partes que dependen del parámetro. Algunos ejemplos simples.
Núcleo normalp(μ|a,b)=K−1×exp(aμ2+bμ)
Donde K es la "constante de normalización" K=∫exp(aμ2+bμ)dμ=π−a−−−√exp(−b24a)
La conexión con los parámetros estándar de media / varianza esE(μ|a,b)=−b2a yVar(μ|a,b)=−12a
Núcleo betap(θ|a,b)=K−1×θa(1−θ)b
Donde K=∫θa(1−θ)bdθ=Beta(a+1,b+1)
Cuando observamos la función de probabilidad, podemos hacer lo mismo y expresarla en "forma de núcleo". Por ejemplo con datos iid
wherea=−n2 and b=∑ni=1xi and Q=(2π)−n2×exp(−∑ni=1x2i2)
This likelihood function has the same kernel as the normal distribution forμ , so a conjugate prior for this likelihood is also the normal distribution.
p(μ|a0,b0)=K−10exp(a0μ2+b0μ)
The posterior is then
p(μ|D,a0,b0)∝K−10exp(a0μ2+b0μ)×Q×exp(aμ2+bμ)=K−10×Q×exp([a+a0]μ2+[b+b0]μ)∝exp([a+a0]μ2+[b+b0]μ)
Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.
In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.
fuente
For a given distribution familyDlik of the likelihood (e.g. Bernoulli),
if the prior is of the same distribution familyDpri as the posterior (e.g. Beta),
thenDpri and Dlik are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.
Note:p(θ|x)posterior∼p(x|θ)likelihood⋅p(θ)prior
fuente