Recientemente me encontré con esta identidad:
Por supuesto, estoy familiarizado con la versión más simple de esa regla, a saber, que pero no pude encontrar justificación para su generalización
Estaría agradecido si alguien pudiera señalarme una referencia no tan técnica para ese hecho o, mejor aún, si alguien pudiera presentar una prueba simple de este importante resultado.
Respuestas:
TRATAMIENTO INFORMAL
Debemos recordar que la notación donde condicionamos las variables aleatorias es inexacta, aunque económica, como notación. En realidad, condicionamos el álgebra sigma que generan estas variables aleatorias. En otras palabras, significa . Esta observación puede parecer fuera de lugar en un "Tratamiento informal", pero nos recuerda que nuestras entidades de condicionamiento son colecciones de conjuntos (y cuando condicionamos un solo valor, entonces este es un conjunto único). ¿Y qué contienen estos conjuntos? Contienen la información con la que los valores posibles de la variable aleatoria nos proporcionan sobre lo que puede suceder con la realización de .E[Y∣X] E[Y∣σ(X)] X Y σ(X)⊆σ(X,Z) Y σ(X,Z) σ(X)
σ(X)≡Ix σ(X,Z)≡Ixz
Introducir el concepto de Información, nos permite pensar (y usar) la Ley de Expectativas Iteradas (a veces llamada "Propiedad de la Torre") de una manera muy intuitiva:
el álgebra sigma generado por dos variables aleatorias, es al menos como grande como el generado por una variable aleatoria: en el significado teórico de conjuntos adecuado. Entonces, la información sobre contenida en es al menos tan grande como la información correspondiente en . Ahora, como insinuación de notación, establezca y . Luego se puede escribir el LHS de la ecuación que estamos viendo
¿Podemos de alguna manera "tener en cuenta" ? No, solo sabemos . Pero si usamos lo que tenemos (ya que estamos obligados por la expresión que queremos resolver), entonces esencialmente estamos diciendo cosas sobre bajo el operador de expectativas, es decir, decimos " ", no más - acabamos de agotar nuestra información.Ixz Ix Y E(Y∣Ix)
Por lo tanto,
Si alguien más no lo hace, volveré para el tratamiento formal.
Un (poco más) TRATAMIENTO FORMAL
Veamos cómo dos libros muy importantes de teoría de la probabilidad, Probabilidad y Medida de P. Billingsley (3d ed.-1995) y D. Williams "Probabilidad con Martingales" (1991), tratan la cuestión de probar la "Ley de Expectativas Iteradas":
Billingsley dedica exactamente tres líneas a la prueba. Williams, y cito, dice
Esa es una línea de texto. La prueba de Billingsley no es menos opaca.
Por supuesto, tienen razón: esta propiedad importante y muy intuitiva de la expectativa condicional deriva esencialmente directamente (y casi de inmediato) de su definición: el único problema es que sospecho que esta definición no se enseña, o al menos no se destaca, fuera de la probabilidad o medir círculos teóricos. Pero para mostrar (casi) tres líneas que contiene la Ley de Expectativas Iteradas, necesitamos la definición de expectativa condicional, o más bien, su propiedad definitoria .
Deje un espacio de probabilidad , y una variable aleatoria integrable . Let ser un sub álgebra de , . Entonces existe una función que es medible, es integrable y (esta es la propiedad definitoria)(Ω,F,P) Y G σ F G⊆F W G
donde es la función de indicador del conjunto . Decimos que es ("una versión de") la expectativa condicional de dada , y escribimos El detalle crítico a tener en cuenta aquí es que la expectativa condicional , tiene el mismo valor esperado como lo hace, no sólo por toda la , pero en cada subconjunto de .1G G W Y G W=E(Y∣G)a.s.
Y G G G
(Intentaré ahora presentar cómo la propiedad de la Torre se deriva de la definición de expectativa condicional).
Como , las ecuaciones y nos danH⊆G [1] [2]
Pero esta es la propiedad definitoria de la expectativa condicional de dado .Y H Entonces tenemos derecho a escribir
Como también tenemos por construcción , acabamos de demostrar la propiedad de la Torre, o el forma general de la Ley de Expectativas Iteradas - en ocho líneas.U=E(Y∣H)a.s.
U=E(W∣H)=E(E[Y∣G]∣H)
fuente
La forma en que entiendo las expectativas condicionales y enseño a mis alumnos es la siguiente:
expectativa condicional es una imagen tomada por una cámara con resoluciónE[Y|σ(X)] σ(X)
Como mencionó Alecos Papadopoulos, la notación es más precisa que . A lo largo de la línea de la cámara, uno puede pensar en como el objeto original, por ejemplo, un paisaje, un paisaje. es una imagen tomada por una cámara con resolución . La expectativa es un operador promedio (¿operador "borroso"?). El escenario puede contener muchas cosas, pero la imagen que tomaste usando una cámara con baja resolución ciertamente hará que algunos detalles desaparezcan, por ejemplo, puede haber un OVNI en el cielo que se puede ver a simple vista pero no aparecer en tu foto tomada por (iphone 3?)E[Y|σ(X)] E[Y|X] Y E[Y|σ(X,Z)] σ(X,Z)
Si la resolución es tan alta que , entonces esta imagen puede capturar cada detalle del escenario real. En este caso, tenemos que .σ(X,Z)=σ(Y) E[Y|σ(Y)]=Y
Ahora, se puede ver como: usando otra cámara con resolución (por ejemplo, iphone 1) que es inferior a (p. Ej., Iphone 3) y tome una imagen en esa imagen generada por la cámara con resolución , entonces debe quedar claro que esta imagen en una imagen debe ser la misma que si originalmente solo use una cámara de baja resolución en el escenario.E[E[Y|σ(X,Z)]|σ(X)] σ(X) σ(X,Z) σ(X,Z) σ(X)
Esto proporciona intuición sobre . De hecho, esta misma intuición nos dice que todavía. Esto se debe a que: si su primera imagen es tomada por el iPhone 1 (es decir, baja resolución), y ahora desea utilizar una cámara mejor (por ejemplo, el iPhone 3) para generar otra foto en la primera foto, entonces no hay forma de que Puede mejorar la calidad de la primera foto.E[E[Y|X,Z]|X]=E[Y|X] E[E[Y|X]|X,Z]=E[Y|X]
fuente
En la Ley de Expectativa Iterada (LIE), , esa expectativa interna es una variable aleatoria que resulta ser una función de , digamos , y no una función de . Que la expectativa de esta función de igual a la expectativa de es una consecuencia de una MENTIRA. Todo esto es, con agitación manual, solo la afirmación de que el valor promedio de se puede encontrar promediando los valores promedio de en diversas condiciones. En efecto, todo es solo una consecuencia directa de la ley de probabilidad total. Por ejemplo, si yE[E[Y∣X]]=E[Y] X g(X) Y X Y Y Y X Y son variables aleatorias discretas con pmf conjunta , luego
\ scriptstyle {\ text {RV} ~ E [Y \ mid X] ~ \ text {tiene valor} ~ E [Y \ mid X = x] ~ \ text {when} ~ X = x} \ end {align}
Aviso cómo es esa última expectativa con respecto a ;pX,Y(x,y)
La MENTIRA generalizada que está mirando tiene a la izquierda en la que la expectativa interna es una función de dos variables aleatorias y . El argumento es similar al descrito anteriormente, pero ahora tenemos que mostrar que la variable aleatoria es igual a otra variable aleatoria. Hacemos esto mirando el valor de cuando tiene el valor . Saltando las explicaciones, tenemos queE[E[Y∣X,Z]∣X] h(X,Z) X Z E[Y∣X] E[Y∣X] X x
Por lo tanto, para cada valor de la variable aleatoria , el valor de la variable aleatoria (que notamos anteriormente es una función de , no de ), es el mismo que el valor de la variable aleatoria variable , es decir, estas dos variables aleatorias son iguales. ¿Te mentiría yo?X E [ Y ∣ X ] X Y E [ E [ Y ∣ X , Z ] ∣ X ]x X E[Y∣X] X Y E[E[Y∣X,Z]∣X]
fuente