Probabilidad vs. Probabilidad

8

Tengo dificultades con las probabilidades . Entiendo el teorema de Bayes

p(A|B,H)=p(B|A,H)p(A|H)p(B|H)

que puede deducirse directamente de la solicitud p(A,B)=p(B)p(A|B)=p(A)p(B|A)=p(B,A). Así, en mi interpretación, elp()Las funciones en el teorema de Bayes son de alguna manera todas las probabilidades, ya sean marginales o condicionales. Así que realmente pensé que la probabilidad como concepto era más una visión frecuentista de la probabilidad inversa.

Sin embargo, ahora he visto repetidamente declaraciones en los libros bayesianistas que dicen que la probabilidad no es una distribución de probabilidad. Al leer el libro de MacKay ayer, me topé con la siguiente declaración

"[...] es importante tener en cuenta que los términos probabilidad y probabilidad no son sinónimos. La cantidad P(nb|u,N) es una función de ambos nB y u. Para fijou, P(nb|u,N) define una probabilidad sobre nB, para fijo nB, P(nB|u,N) define la similitud de u".

  • Entiendo esto de la siguiente manera: p(A|B) es una probabilidad de A bajo dado B, por lo tanto una función probability:A[0,1]. Pero considerando un valor dadoaA y evaluando p(A=a|B)Dependencia de diferentes bBestamos usando una función diferente L:B[0,1].

  • ¿Es correcta esta interpretación?

  • ¿Se puede decir entonces que los métodos de máxima verosimilitud podrían estar motivados por el teorema bayesiano, donde se elige el anterior como constante?

wirrbel
fuente
1
Como elemento de respuesta, le aconsejo la respuesta con enlaces de Stephane Laurent en mathoverflow.net/questions/10971/… . Espero eso ayude.
peuhp

Respuestas:

7

Creo que quizás la mejor manera de explicar la noción de probabilidad es considerar un ejemplo concreto. Supongamos que tengo una muestra de observaciones IID extraídas de una distribución de Bernoulli con probabilidad desconocida de éxitop: XiBernoulli(p), i=1,,n, entonces la función de masa de probabilidad conjunta de la muestra es Esta expresión también caracteriza la probabilidad de , dada una muestra observada : Pero si pensamos en como una variable aleatoria, esta probabilidad no es una densidad: Sin embargo, es proporcional a una densidad de probabilidad, por lo que decimos que es una probabilidad de

Pr[X=xp]=i=1npxi(1p)1xi.
px=(x1,,xn)
L(px)=i=1npxi(1p)1xi.
p
p=01L(px)dp1.
psiendo un valor particular dada la muestra, representa, en cierto sentido, la plausibilidad relativa de siendo algún valor para las observaciones que hicimos.p

Por ejemplo, suponga que y la muestra fue . Intuitivamente, concluiríamos que es más probable que esté más cerca de que de , porque observamos más. De hecho, tenemos Si trazamos esta función en , podemos ver cómo la probabilidad confirma nuestra intuición. Por supuesto, no sabemos el verdadero valor de - podría haber sido lugar de , pero la función de probabilidad nos dice que el primero es mucho menos probable que el segundo. Pero si queremos determinar una probabilidadn=5x=(1,1,0,1,1)p10

L(px)=p4(1p).
p[0,1]pp=0.25p=0.8que encuentra en cierto intervalo, tenemos que normalizar la probabilidad: dado que , se deduce que en Para obtener una densidad posterior para , debemos multiplicar por : De hecho, este posterior es una distribución beta con parámetros . Ahora las áreas bajo la densidad corresponden a probabilidades.pp=01p4(1p)dp=130p30
fp(px)=30p4(1p).
a=5,b=2

Entonces, lo que esencialmente hemos hecho aquí es aplicar la regla de Bayes: Aquí, es una distribución previa del parámetro (s) , el numerador es la probabilidad que es también la distribución conjunta de

fΘ(θx)=fX(xθ)fΘ(θ)fX(x).
fΘ(θ)θL(θx)=fX(xθ)fΘ(θ)=fX,Θ(x,θ)X,Θ , y el denominador es la densidad marginal (incondicional) de , obtenida integrando la distribución conjunta con respecto a para encontrar la constante de normalización que hace que la probabilidad sea una densidad de probabilidad con Respeto a los parámetros. En nuestro ejemplo numérico, implícitamente tomamos lo anterior para que sea ​​uniforme en . Se puede demostrar que, para una muestra de Bernoulli, si el anterior es , el posterior para también es Beta, pero con los parámetros ,XθfΘ[0,1]Beta(a,b)fΘa=a+xib=b+nxi. Llamamos a dicho conjugado previo (y nos referimos a esto como un par conjugado Bernoulli-Beta).
heropup
fuente