Probabilidad condicional de variable continua

12

Suponga que la variable aleatoria U sigue una distribución uniforme continua con los parámetros 0 y 10 (es decir, UU(0,10) )

Ahora denotemos A el evento de que U = 5 y B el evento de que U sea ​​igual a 5 o 6. Según tengo entendido, ambos eventos tienen cero probabilidad de ocurrir.

Ahora, si consideramos calcular P(A|B) , no podemos usar la ley condicional P(A|B)=P(AB)P(B) , porqueP(B)es igual a cero. Sin embargo, mi intuición me dice queP(A|B)=1/2.

Novato
fuente
2
¿Qué le diría su intuición si tuviera una densidad no uniforme 0.02 u , u ( 0 , 10 ) ? U0.02u,u(0,10)
Dilip Sarwate
1
@DilipSarwate Mi intuición me decía que la respuesta es un número ligeramente inferior al 0,5
Noob

Respuestas:

9

"El concepto de una probabilidad condicional con respecto a una hipótesis aislada cuya probabilidad es igual a 0 es inadmisible". A. Kolmogorov

Para variables aleatorias continuas, e Y dicen, las distribuciones condicionales se definen por la propiedad de que recuperan la medida de probabilidad original, es decir, para todos los conjuntos medibles A B ( X ) , B B ( Y ) , P ( X A , Y B ) = B d P Y ( y ) B d )XYAB(X)BB(Y) |

P(XA,YB)=BdPY(y)BdPX|Y(x|y)
Esto implica que la densidad condicional se define arbitrariamente en conjuntos de medida cero o, en otras palabras, que la densidad condicional se define en casi todas partes . Como el conjunto { 5 , 6 } es de medida cero frente a la medida de Lebesgue, esto significa que puede definir tanto p ( 5 ) como p ( 6 )pX|Y(x|y){5,6}p(5)p(6) de manera absolutamente arbitraria y, por lo tanto, que la probabilidad puede tomar cualquier valor.
P(U=5|U{5,6})

Esto no significa que no pueda definir una densidad condicional mediante la fórmula de la relación como en el caso normal bivariado, sino simplemente que la densidad solo se define en casi todas partes para ambos x e y .

f(y|x)=f(x,y)/f(x)
xy

"Muchos argumentos bastante inútiles han surgido, entre probabilistas competentes, sobre cuál de estos resultados es 'correcto'". ET Jaynes

El hecho de que el argumento limitante (cuando va a cero) en la respuesta anterior parece dar una respuesta natural e intuitiva está relacionado con la paradoja de Borel . La elección de la parametrización en el límite es importante, como se muestra en el siguiente ejemplo que uso en mis clases de pregrado.ϵ


Tome la bivariada normal ¿Cuál es la densidad condicional de X dado que

X,Yi.i.d.N(0,1)
X ?X=Y


Si se parte de la densidad conjunta , la respuesta "intuitiva" es [proporcional a] φ ( x ) 2 . Esto se puede obtener considerando el cambio de la variable ( x , t ) = ( x , y - x ) φ ( x ) φ ( t + x ) donde T = Y - X tiene la densidad φ (φ(x)φ(y)φ(x)2

(x,t)=(x,yx)φ(x)φ(t+x)
T=YX . Por lo tanto,f(x|t)= φ ( x ) φ ( tφ(t/2)/2 yf(x|t=0)=φ(x)φ
f(x|t)=φ(x)φ(t+x)φ(t/2)/2
Sin embargo, si se considera el cambio de variable(x,r)=(x,y/x)φ(x)φ(rx)| x| la densidad marginal deR=Y/Xes la densidad de Cauchyψ(r)=1/π{1+r2
f(x|t=0)=φ(x)φ(x)φ(0/2)/2=φ(x)22
(x,r)=(x,y/x)φ(x)φ(rx)|x|
R=Y/X y la densidad condicional de Xψ(r)=1/π{1+r2}Xdado es f (x | / 2R Por lo tanto, f ( x | r = 1 ) = π φ ( x ) 2 |
f(x|r)=φ(x)φ(rx)|x|×π{1+r2}
Y aquí radica la "paradoja": los eventos R = 1 y T = 0 son los mismos que X = Y , pero conducen a diferentes densidades condicionales en
f(x|r=1)=πφ(x)2|x|/2.
R=1T=0X=Y .X
Xi'an
fuente
2
Esto esta simplemente mal. Si toma un curso riguroso en la teoría de la probabilidad, verá que el condicionamiento sobre eventos de medida cero es posible y práctico. Considere un gaussiano bitivariado. Todos saben que puede condicionar la primera variable que toma el valor cero, aunque este evento tiene probabilidad cero. Ver wikipedia. en.wikipedia.org/wiki/…
Yair Daon
5

Aquí hay una respuesta controvertida:

Xi'an tiene razón en que no puedes condicionar eventos con probabilidad cero. Sin embargo, Yair también tiene razón en que una vez que decide un proceso limitante , puede evaluar una probabilidad. El problema es que hay muchos procesos limitantes que llegan a la condición deseada.

(1,11)p1p . Entonces, si ha elegido un proceso de limitación diferente para uno que el otro, entonces, mediante un cambio arbitrario de etiquetas (en este caso, cambiar el infinito positivo por el infinito negativo) ha obtenido un resultado diferente. Eso no debería suceder de acuerdo con el principio de indiferencia. Por lo tanto, la respuesta es 0.5 como lo adivinó.

Tenga en cuenta que muchos estadísticos no aceptan el principio de indiferencia. Me gusta porque refleja mis intuiciones. Aunque no siempre estoy seguro de cómo aplicarlo, ¿tal vez en 50 años será más convencional?

Neil G
fuente
[0,10]506125
@whuber: el argumento de cambio no funcionaría para una distribución Cauchy, a menos que cambies su modo.
Neil G
Claro que sí: hay muchas formas de transformar una distribución continua en otra que intercambian dos valores. En realidad, su "volteo" ni siquiera conservó la distribución original. (Cambió su soporte por completo). Parece que todo lo que está haciendo es reemplazar una distribución por otra. No parece haber ningún principio operando aquí en absoluto.
whuber
@whuber: reemplazó una distribución con otra, por lo que las regiones uniformes alrededor de las 5 y 6 no cambiaron , de la misma manera creo que alejar intenta dejar las densidades sin cambios en los círculos originales en la paradoja de Bertrand .
Neil G
1
@whuber: Tienes razón. Realmente me gustó la respuesta de Potato a una de mis preguntas. Personalmente, creo que si existe una discrepancia entre la teoría y la intuición, debemos buscar nuevas teorías más completas. Tal vez el "principio de indiferencia" no es del todo correcto, o generalmente no es viable, pero tengo un deseo natural de que la teoría de la probabilidad responda preguntas para las cuales tenemos una comprensión intuitiva. ¿Quizás Lebesgue tenía el mismo tipo de angustia por la integración de Riemann cuando creó su integral?
Neil G
1

A=[5ϵ2,5+ϵ2]B=[5ϵ4,5+ϵ4][6ϵ4,6+ϵ4]ϵ0 .

(X1,X2)N(0,Σ)X1X2=0P(ξ=a)=0

Entonces, sí, puede dar sentido al condicionamiento en eventos de medida cero.

Yair Daon
fuente
55
UU[0,10]010A={0}B={0,6}P(A|B)=1/2[0,10]1/3500
2
εP(A|B)=P(AB)P(B)=5ε45+ε4f(u)du5ε45+ε4f(u)du+6ε46+ε4f(u)du=ε2ε2+ε2=0.5
3
[5ε8,5+ε8]18
44
Es excelente para la intuición al mostrar que no hay una respuesta única: esa es la base de la declaración de Kolmogorov citada por @ Xi'an. El hecho de que tuvieras que cambiar tu procedimiento para hacer que las cosas salgan como creías que deberían avisarte de los problemas con este enfoque.
whuber
3
X2X1X2X1=0