Comprensión del conjugado beta previo en inferencia bayesiana sobre una frecuencia

11

Lo siguiente es un extracto de la Introducción a las estadísticas bayesianas de Bolstad .

Estoy leyendo t

Para todos los expertos, esto puede ser trivial, pero no entiendo cómo el autor concluye que no tenemos que hacer ninguna integración para calcular la probabilidad posterior de algún valor de . Entiendo la segunda expresión, que es la proporcionalidad y de dónde provienen todos los términos ( probabilidad x Prior) . Además, entiendo, no tenemos que preocuparnos por el denominador ya que solo el numerador es directamente proporcional. Pero pasando a la tercera ecuación , ¿no nos estamos olvidando del denominador de la Regla de Bayes? A donde se fué ? Y el valor calculado por las funciones Gamma, ¿no es eso una constante? ¿Las constantes no se cancelan en el teorema de Bayes?π

Jenna Maiz
fuente
55
Solo hay una constante posible, es decir, la que hace que la función sea una densidad de probabilidad.
Xi'an

Respuestas:

10

El punto es que sabemos a qué es posterior el proporcional y sucede que no necesitamos hacer la integración para obtener el denominador (constante), porque reconocemos que una distribución con función de densidad de probabilidad proporcional a (como la posterior) es una distribución beta. Dado que la constante de normalización para tal pdf beta es , obtenemos el pdf posterior sin integración. Y sí, la constante de normalización en el teorema de Bayes es una constante (dados los datos observados y el supuesto anterior) al igual que la constante de normalización para la densidad posterior.xα1×(1x)β1Γ(α+β)Γ(α)Γ(β)

Björn
fuente
8

La puesta en marcha

Tiene este modelo: Las densidades para las cuales son y, en particular, tenga en cuenta que

pbeta(α,β)x|pbinomial(n,p)
f(p)=1B(α,β)pα1(1p)β1
g(x|p)=(nx)px(1p)nx
1B(α,β)=Γ(α+β)Γ(α)Γ(β).

La versión implícita

Ahora. La distribución posterior es proporcional a la anterior multiplicada por la probabilidad . Podemos ignorar las constantes (es decir, cosas que no son ), produciendo: fgp

h(p|x)f(p)g(p|x)=pα1(1p)β1pxpnx=pα+x1(1p)β+nx1.

Esto tiene la 'forma' de una distribución beta con parámetros y , y sabemos cuál debería ser la constante de normalización correspondiente para una distribución beta con esos parámetros: . O, en términos de funciones gamma, En otras palabras, podemos hacerlo un poco mejor que una relación proporcional sin ningún trabajo adicional, e ir directamente a la igualdad: α+xβ+nx1/B(α+x,β+nx)

1B(α+x,β+nx)=Γ(n+α+β)Γ(α+x)Γ(β+nx).
h(p|x)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1.

Por lo tanto, se puede usar el conocimiento de la estructura de una distribución beta para recuperar fácilmente una expresión para la parte posterior, en lugar de pasar por una integración desordenada y similares.

De alguna manera se desplaza hacia la parte posterior completa al cancelar implícitamente las constantes de normalización de la distribución conjunta, lo que puede ser confuso.

La versión explícita

También podría pulir las cosas procesalmente, lo que puede ser más claro.

En realidad no es mucho más tiempo. Tenga en cuenta que podemos expresar la distribución conjunta como y la distribución marginal de como

f(p)g(x|p)=1B(α,β)(nx)pα+x1(1p)β+nx1
x
01f(p)g(x|p)dp=1B(α,β)(nx)01pα+x1(1p)β+nx1dp=1B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+nx)

Entonces podemos expresar el posterior usando el teorema de Bayes por que es lo mismo que obtuvimos anteriormente.

h(p|x)=f(p)g(x|p)01f(p)g(x|p)dp=1B(α,β)(nx)pα+x1(1p)β+nx11B(α,β)(nx)Γ(α+x)Γ(β+nx)Γ(α+β+n)=Γ(n+α+β)Γ(α+x)Γ(β+nx)pα+x1(1p)β+nx1
jtobin
fuente
7

Observaciones generales

Para que la respuesta dada por @ Björn sea un poco más explícita y al mismo tiempo más general, debemos recordar que llegamos al Teorema de Bayes desde

p(θ|X)×p(X)=p(X,θ)=p(X|θ)×p(θ)

p(θ|X)=p(X|θ)×p(θ)p(X) (Bayes Thereom)

donde representa los datos observados y nuestro parámetro desconocido sobre el que nos gustaría hacer inferencias probabilísticas; en el caso de la pregunta, el parámetro es una frecuencia desconocida . No nos preocupemos por ahora si estamos hablando de vectores o escalares para simplificarlo.Xθπ

La marginación en el caso continuo conduce a

p(X)=+p(X,θ)dθ=+p(X|θ)×p(θ)dθ

donde la distribución conjunta es igual a la como hemos visto anteriormente. Es una constante ya que después de 'integrar' el parámetro solo depende de términos constantes .p(X,θ)likelihood×prior

Por lo tanto, podemos reformular el Teorema de Bayes como

p(θ|X)=Const.×p(X|θ)×p(θ) conConst.=1p(X)=1p(X|θ)×p(θ)dθ

y así llegar a la forma habitual de proporcionalidad del Teorema de Bayes .

Aplicación al problema de una mano

Ahora estamos listos para simplemente conectar lo que sabemos, ya que la en el caso de la pregunta es de la formalikelihood×prior

p(X,θ)=p(X|θ)×p(θ)=Aθa+y1(1θ)b+ny1=Aθa1(1θ)b1

donde , y donde recoge los términos constantes de la probabilidad binomial y la beta anterior.a=a+yb=b+nyA=1B(a,b)(ny)

Ahora podemos usar la respuesta dada por @ Björn para encontrar que esto se integra a la función Beta multiplicada por la colección de términos constantes para queB(a,b)A

p(X)=A01θa1(1θ)b1dθ=AB(a,b)

p(θ|X)=Aθa1(1θ)b1AB(a,b)=θa1(1θ)b1B(a,b)

Tenga en cuenta que cualquier término constante en la distribución conjunta siempre se cancelará, ya que aparecerá en el nominador y el denominador al mismo tiempo (cf. la respuesta dada por @jtobin), por lo que realmente no tenemos que molestarnos.

Por lo tanto, reconocemos que nuestra distribución posterior es, de hecho, una distribución beta donde simplemente podemos actualizar los parámetros del previo y para llegar al posterior. Es por eso que el beta distribuido antes se llama un conjugado previo .a=a+yb=b+ny

gwr
fuente
Este razonamiento es similar a la versión implícita de jtobin. Solo observamos partes de tiempos de probabilidad anteriores que contienen el parámetro y recopilan todo lo demás en la constante de normalización. Por lo tanto, consideramos la integración solo como un paso final que es legítimo, porque las constantes se cancelan como lo ha demostrado jtobin en su versión explícita.
gwr