¿Cómo se define cuando

11

Digamos que Y es una variable aleatoria continua y X es una variable discreta.

Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)

Como sabemos, Pr(Y=y)=0 porque Y es una variable aleatoria continua. Y en base a esto, estoy tentado a concluir que la probabilidad Pr(X=x|Y=y) no está definida.

Sin embargo, Wikipedia afirma aquí que en realidad se define de la siguiente manera:

Pr(X=x|Y=y)=Pr(X=x)fY|X=x(y)fY(y)

Pregunta: ¿ Alguna idea de cómo logró Wikipedia definir esa probabilidad?


Mi intento

Aquí está mi intento para obtener ese resultado de Wikipedia en términos de límites:

Pr(X=x|Y=y)=Pr(X=x)Pr(Y=y|X=x)Pr(Y=y)=limd0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=limd0Pr(X=x)(d×fY|X=x(y))(d×fY(y))=Pr(X=x)fY|X=x(y)fY(y)

Ahora, Pr(X=x|Y=y) parece estar definido como Pr(X=x)fY|X=x(y)fY(y) , que coincide ese reclamo de Wikipedia.

¿Es así como lo hizo Wikipedia?

Pero todavía siento que estoy abusando del cálculo aquí. Así que creo que Pr(X=x|Y=y) no está definido, pero en el límite a medida que nos acercamos lo más posible para definir Pr(Y=y) y Pr(Y=y|X=x) , pero no de manera efectiva, entonces se define Pr(X=x|Y=y) .

Pero no estoy seguro de muchas cosas, incluido el truco de límites que hice allí, siento que tal vez ni siquiera entiendo completamente el significado de lo que hice.

cavernícola
fuente
1
De hecho, Pr (X = x) = 0 pero la densidad de X en xf (x) puede no ser igual a 0. ¿No debería usar una etiqueta de "autoestudio"?
Lil'Lobster
2
@Lil Hasta donde yo sé, la etiqueta 'autoestudio' es cuando se resuelve la tarea. No estoy haciendo eso
hombre de las cavernas
1
La página de Wikipedia en realidad se refiere a la derivación: en.wikipedia.org/wiki/Bayes'_theorem#Derivation
Ytsen de Boer
3
Me temo que su derivación no tiene justificación matemática como para todos cuando es continuo. P(Y=y)=0yYY
Xi'an

Respuestas:

10

La distribución de probabilidad condicional , , , se define formalmente como una solución de la ecuación donde indica la -algebra asociada a la distribución de . Una de esas soluciones es proporcionada por la fórmula de Bayes (1763) como se indica en Wikipedia :P(X=x|Y=y)xXyY

P(X=x,YA)=AP(X=x|Y=y)fY(y)dyAσ(Y)
σ(Y)σY
P(X=x|Y=y)=P(X=x)fY|X=x(y)fY(y)xX, yY
aunque las versiones que se definen arbitrariamente en un conjunto de medida cero en también son válidas.σ(Y)

El concepto de una probabilidad condicional con respecto a una hipótesis aislada cuya probabilidad es igual a 0 es inadmisible. Porque podemos obtener una distribución de probabilidad para [la latitud] en el círculo meridiano solo si consideramos este círculo como un elemento de la descomposición de toda la superficie esférica en círculos meridianos con los polos dados -  Andrei Kolmogorov

Como lo muestra la paradoja de Borel-Kolmogorov , dado un valor específico potencialmente tomado , la distribución de probabilidad condicional no tiene un significado preciso, no solo porque el evento es de medida cero, pero también porque este evento puede interpretarse como medible contra un rango infinito de álgebras.y0YP(X=x|Y=y0){ω;Y(ω)=y0}σ

Nota: Aquí hay una introducción aún más formal, tomada de una revisión de la teoría de probabilidad en el blog de Terry Tao :

Definición 9 (desintegración) Let una variable aleatoria con la gama . Una desintegración del espacio muestral subyacente con respecto a es un subconjunto de de medida completa en (por lo tanto, casi seguro), junto con la asignación de una medida de probabilidad en el subespacio de para cada , que es medible en el sentido de que el mapaYR(R,(μy)yR)ΩYRRμYYRP(|Y=y)Ωy:={ωΩ:Y(ω)=y}ΩyRyP(F|Y=y)es medible para cada evento , y tal que para todos esos eventos, donde es la variable aleatoria (casi seguramente definida) definida para ser igual a siempre que .F

P(F)=EP(F|Y)
P(F|Y)P(F|Y=y)Y=y

Dada tal desintegración, podemos condicionar al evento para cualquier reemplazando con el subespacio (con la álgebra inducida ), pero reemplazando la medida de probabilidad subyacente con . Por lo tanto, podemos condicionar eventos (incondicionales) y variables aleatorias a este evento para crear eventos condicionados y variables aleatorias en el espacio condicionado, dando lugar a probabilidades condicionalesY=yyRΩΩyσPP(|Y=y)FX(F|Y=y)(X|Y=y)P(F|Y=y)(que es consistente con la notación existente para esta expresión) y expectativas condicionales (suponiendo una integrabilidad absoluta en este espacio condicionado). Luego establecemos como la variable aleatoria (casi segura) definida para que sea igual a siempre que .E(X|Y=y)E(X|Y)E(X|Y=y)Y=y

Xi'an
fuente
1
Ya ha hecho +1, pero ... tal vez es una trampa, pero ¿no sería más exacto referirse al teorema de Bayes como una fórmula de Bayes / Laplace ...?
Tim
2
@Tim: gracias, ¡pero no quiero parecer demasiado chovinista! Y es un hecho que la fórmula de Bayes para discreto (Binomial) e continuo (Beta) aparece en el artículo de Bayes (1763). Por supuesto, Laplace estableció el resultado en una generalidad mucho más amplia. XY
Xi'an
4

Daré un bosquejo de cómo las piezas pueden encajar cuando es continuo y es discreto.YX

La densidad conjunta mixta:

fXY(x,y)

Densidad marginal y probabilidad:

fY(y)=xXfXY(x,y)

P(X=x)=fXY(x,y)dy

Densidad condicional y probabilidad:

fYX(yX=x)=fXY(x,y)P(X=x)

P(X=xY=y)=fXY(x,y)fY(y)

Regla de Bayes:

fYX(yX=x)=P(X=xY=y)fY(y)P(X=x)

P(X=xY=y)=fYX(yX=x)P(X=x)fY(y)

Por supuesto, la forma moderna y rigurosa de lidiar con la probabilidad es a través de la teoría de la medida. Para una definición más precisa, vea la respuesta de Xi'an.

Matthew Gunn
fuente
2

Tenga en cuenta que el artículo de Wikipedia en realidad usa la siguiente definición: Es decir, trata el resultado como una densidad, no como una probabilidad como la tienes. Entonces diría que tiene razón en que no está definida cuando es continua e discreta, por lo que en ese caso solo consideramos densidades de probabilidad sobre en ese caso.

fX(x|Y=y)=P(Y=y|X=x)fX(x)p(Y=y)
P(X=x|Y=y)XYX

Editar: debido a una confusión sobre la notación (ver comentarios), lo anterior en realidad se refiere a la situación opuesta a lo que preguntaba el hombre de las cavernas.

Ruben van Bergen
fuente