¿Cómo completo el cuadrado con probabilidad normal y normal anterior?

8

¿Cómo completo el cuadrado desde el punto donde lo dejé y es correcto hasta ahora?

Tengo un previo normal para β de la forma p(β|σ2)N(0,σ2V), Llegar:

p(β|σ2)=(2πσ2V)p2exp[12σ2βTβ]

dónde βTβes .i=1pβi2

Mi probabilidad tiene una distribución normal para los puntos de datos y de la formap(y|β,σ2)N(Bβ,σ2I)

p(y|β,σ2)=(2πσ2V)n2exp[12σ2(yBβ)T(yBβ)]

(Tenga en cuenta que es una matriz / vector, \ bf no funciona).β

Para obtener mi posterior para , combiné lo anterior, tomé solo las partes exponenciales y luego me expandí para obtener:β

exp[12σ2(yTyyTBββBTyβTBTBβ)]exp[12σ2(βTB)] .

Eliminé el término , ya que no es una función de .(yTy)β

Poniendo en una expresión sin el exponencial:

12σ2(yTBββBTyβTBTBβ+βTB).

Sé que necesito combinar los términos similares y adoptar la forma de la distribución normal multivariante, que es a lo que apunto, pero no estoy seguro de cómo hacerlo. ¿Probablemente tengo que agregar un término adicional a la expresión para que tenga la forma correcta?

Nota: Esto no es tarea, es un proyecto, pero mi conocimiento de trabajo bayesiano no es bueno en absoluto y, por lo tanto, necesito entender el trabajo. Tengo la intención de integrar elβ y luego el σ2 después de entrar en la forma multivariante.

Ellie
fuente
2
Si solo está interesado en el cálculo, este enlace puede ser de interés.
Puede que no sea su tarea, pero creo que recuerdo este problema del libro de texto de análisis de datos Bayesian de Gelman et al.
David LeBauer
El enlace a la página de Wikipedia anterior es lo que estoy tratando de hacer, pero es el ejercicio real que no sé cómo hacer.
Ellie
Estoy revisando el libro 'Análisis de datos bayesianos' y he encontrado en el capítulo 15 que, de hecho, es un diseño similar al que estoy tratando de hacer, pero nuevamente no hay trabajo que seguir.
Ellie

Respuestas:

13

Comenzaré desde cero, ya que la publicación original tiene algunos errores tipográficos matemáticos como signos incorrectos, dejando caer el V matriz, etc.

Has especificado antes p(β)=N(0,σ2V) y probabilidad: p(y|β)=N(Bβ,σ2I).

Podemos escribir cada uno de estos simplemente como expresiones de términos dentro del exp eso depende de β, agrupando todos los términos no relacionados con β en una sola constante:

logp(β)+const=12σ2βTV1β

logp(y|β)+const=12σ2(βTBTBβ2yTBβ) (tenga en cuenta que yTBβ=βTBTy siempre)

Agregado estos en el espacio de registro y la recopilación de términos similares produce el registro posterior no normalizado

logp(β|y)+const=12σ2(βT(V1+BTB)β2yTBβ) (1)

... aquí, hemos usado la identidad estándar xTAx+xTCx=xT(A+C)x para cualquier vector x y matrices A,C de tamaño apropiado.

OK, nuestro objetivo ahora es "completar" el cuadrado. Nos gustaría una expresión de la siguiente forma, lo que indicaría que la posterior paraβ es gaussiano

logp(β|y)+const=(βμp)TΛp(βμp)=βTΛpβ2μpTΛpβ+μpTΛpμp

donde los parámetros μp,Λp definir la media posterior y la matriz de covarianza inversa respectivamente.

Bueno, por inspección eqn. (1) se parece mucho a este formulario si configuramos

Λp=V1+BTB y μp=Λp1BTy

En detalle, podemos mostrar que esta sustitución crea cada término necesario a partir de (1):

término cuadrático: βTΛpβ=βT(V1+BTB)β

término lineal: μpTΛpβ=(Λp1BTy)TΛpβ=yTBΛp1Λpβ=yTBβ

.... aquí usamos hechos (AB)T=BTAT y (Λp1)T=Λp1 debido a la simetría (Λp es simétrica, entonces también lo es su inverso).

Sin embargo, esto nos deja con un término extra molesto μpTΛpμp. Para evitar esto, solo restamos este término de nuestro resultado final. Por lo tanto, podemos sustituir directamente nuestroμp,Λp parámetros en (1) para obtener

logp(β|y)+const=12σ2[(βμp)TΛp(βμp)μpΛpμp]

ya que ese último término es constante con respecto a β, podemos simplemente convertirlo en la gran constante de normalización en el lado izquierdo y hemos logrado nuestro objetivo.

Mike Hughes
fuente
El último término de la última ecuación debe ser μpTΛpμp
alberto