Intuición para la expectativa condicional de álgebra

20

Sea un espacio de probabilidad, dada una variable aleatoria y a -algebra podemos construir una nueva variable aleatoria , que es la expectativa condicional.(Ω,F,μ)ξ:ΩRσGFE[ξ|G]


¿Cuál es exactamente la intuición para pensar en ? Entiendo la intuición de lo siguiente:E[ξ|G]

(i) donde es un evento (con probabilidad positiva).E[ξ|A]A

(ii) donde es una variable aleatoria discreta.E[ξ|η]η

Pero no puedo visualizar . Entiendo las matemáticas de esto, y entiendo que está definido de tal manera para generalizar los casos más simples que podemos visualizar. Sin embargo, no creo que esta forma de pensar sea útil. Sigue siendo un objeto misterioso para mí.E[ξ|G]


Por ejemplo, deje que sea ​​un evento con . Forma el -algebra , la generada por . Entonces sería igual a si , e igual a si . En otras palabras, if , y if .Aμ(A)>0σG={,A,Ac,Ω}AE[ξ|G](ω)1μ(A)AξωA1μ(Ac)AcξωAE[ξ|G](ω)=E[ξ|A]ωAE[ξ|G](ω)=E[ξ|Ac]ωAc

La parte que es confusa es que , entonces ¿por qué no solo escribimos ? ¿Por qué reemplazamos por dependiendo de si , pero no está permitido reemplazar por ?ωΩE[ξ|G](ω)=E[ξ|Ω]=E[ξ]E[ξ|G]E[ξ|A or Ac]ωAE[ξ|G]E[ξ]


Nota. Al responder a esta pregunta, no explique esto utilizando la definición rigurosa de expectativa condicional. Entiendo que. Lo que quiero entender es qué se supone que calcula la expectativa condicional y por qué rechazamos una en lugar de otra.

Nicolas Bourbaki
fuente

Respuestas:

16

Una forma de pensar sobre la representación condicional es como una proyección sobre álgebra .GσG

ingrese la descripción de la imagen aquí( de Wikimedia commons )

Esto es realmente riguroso cuando se habla de variables aleatorias integrables al cuadrado; en este caso, es en realidad la proyección ortogonal de la variable aleatoria en el subespacio de consiste en variables aleatorias medibles con respecto a . Y, de hecho, esto incluso resulta ser cierto en cierto sentido para las variables aleatorias mediante la aproximación de las variables aleatorias .ξ L 2 ( Ω ) GE[ξ|G]ξL2(Ω)GL 2L1L2

(Ver los comentarios para referencias).

Si se considera que representa la cantidad de información que tenemos disponible (una interpretación que es de rigor en la teoría de los procesos estocásticos), entonces más grandes significan más eventos posibles y, por lo tanto, más información sobre posibles resultados, mientras que son más pequeños significa menos eventos posibles y, por lo tanto, menos información sobre posibles resultados.σσ -σσ

Por lo tanto, la proyección de la -medible variable aleatoria en los más pequeños álgebra significa tomar nuestra mejor estimación para el valor de dada la información más limitada disponible de . ξ σ - GFξσGGξG

En otras palabras, dada solo la información de , y no toda la información de , es, en un sentido riguroso, nuestro mejor posible adivinar cuál es la variable aleatoria .F E [ ξGFξE[ξ|G]ξ


Con respecto a su ejemplo, creo que podría estar confundiendo variables aleatorias y sus valores. Una variable aleatoria es una función cuyo dominio es el espacio de eventos; No es un número. En otras palabras, , mientras que para un , .X : Ω R X { f | f : Ω R } ω Ω XXX:ΩRX{f | f:ΩR}ωΩX(ω)R

La notación de expectativa condicional, en mi opinión, es realmente mala, porque es una variable aleatoria en sí misma, es decir, también una función . En contraste, la expectativa (regular) de una variable aleatoria es un número . La expectativa condicional de una variable aleatoria es una cantidad completamente diferente de la expectativa de la misma variable aleatoria, es decir, ni siquiera "chequea" con .E [ ξ ]E[ξ|G]E[ξ]

En otras palabras, usar el símbolo para denotar expectativas tanto regulares como condicionales es un abuso de notación muy grande, lo que lleva a una confusión innecesaria.E

Dicho todo esto, tenga en cuenta que es un número (el valor de la variable aleatoria evaluado en el valor ), pero es una variable aleatoria, pero resulta ser una variable aleatoria constante (es decir, degenerada trivial), porque el álgebra generado por , es trivial / degenerado, y técnicamente hablando, el valor constante de esta variable aleatoria constante es , donde aquíE [ ξ | G ] ω E [ ξ | Ω ] σ Ω { , Ω } EE[ξ|G](ω)E[ξ|G]ωE[ξ|Ω]σΩ{,Ω}EE[ξ]E denota expectativa regular y, por lo tanto, un número, no expectativa condicional y, por lo tanto, no una variable aleatoria.

También parece estar confundido acerca de lo que significa la notación ; técnicamente hablando, solo es posible condicionar en , no en eventos individuales, ya que las medidas de probabilidad solo se definen en completas , no en eventos individuales. Por lo tanto, es solo una abreviatura (perezosa) de , donde representa el generado por el evento , que es . Tenga en cuenta que ; en otras palabras, ,σ - σ - E [ ξ | A ] E [ ξ | σ ( A ) ] σ ( A ) σ - A { , A , A c , Ω } σ ( A ) = G = σ ( A c )E[ξ|A]σσE[ξ|A]E[ξ|σ(A)]σ(A)σA{,A,Ac,Ω}σ(A)=G=σ(Ac)EE[ξ|A]E [ ξ | A c ]E[ξ|G] y son formas diferentes de denotar exactamente el mismo objeto .E[ξ|Ac]

Finalmente, solo quiero agregar que la explicación intuitiva que di arriba explica por qué el valor constante de la variable aleatoria es solo el número - el álgebra representa la menor cantidad posible de información que podríamos tener, de hecho, esencialmente no hay información, por lo que, bajo esta circunstancia extrema, la mejor suposición posible para la cual la variable aleatoria es es la variable aleatoria constante cuyo valor constante es .E [ ξ ] σ - { , Ω } ξE[ξ|Ω]=E[ξ|σ(Ω)]=E[ξ|{,Ω}]E[ξ]σ{,Ω}ξE[ξ]

Tenga en cuenta que todas las variables aleatorias constantes son variables aleatorias, y todas son medibles con respecto a la trivial álgebra , por lo que sí tenemos que la constante aleatoria es la proyección ortogonal de en el subespacio de consiste en variables aleatorias medibles con respecto a , como se afirmó. σ { , Ω } E [ ξ ] ξ L 2 ( Ω ) { , Ω }L2σ{,Ω}E[ξ]ξL2(Ω){,Ω}

Chill2Macht
fuente
2
@William No estoy de acuerdo con usted sobre el uso de como una variable var. Muchos libros definen como un número, no como una variable. Es la mejor estimación posible de . Esta es una noción útil y altamente intuitiva. Sin tenerlo en cuenta por completo, solo porque tiene una noción generalizada de cond exp como una variable ejecutada está mal desde un punto de vista pedagógico. No estoy confundido acerca de lo que es un rv, ni veo cómo nada de lo que escribí te llevaría a pensar así. E [ ξ | A ] ξ | UNE[ξ|A]E[ξ|A]ξ|A
Nicolas Bourbaki
1
@William Pensar en cond expe como una estimación de la ejecutada con representando información, es algo que he visto antes, pero nunca pensé demasiado y traté de encontrar una forma diferente de visualizar la experiencia cond. Usando su sugerencia, escribiré un ejemplo simple y lo publicaré como respuesta, para mí y para otras personas. Tal vez, algunas personas puedan elaborar mi ejemplo y dar uno más exótico. G
Nicolas Bourbaki
1
@NicolasBourbaki Le recomiendo que mire la página 221 de la cuarta edición de Probabilidad de Durrett - Teoría y ejemplos . También puedo remitirlo a otras fuentes que discuten esto. En cualquier caso, no es realmente una cuestión de opinión: en el caso más general, una expectativa condicional es una variable aleatoria, y el condicionamiento solo se realiza con respecto a ; el condicionamiento con respecto a un evento es el condicionamiento con respecto al álgebra generado por el evento, y el condicionamiento con respecto a una variable aleatoria es el condicionamiento con respecto al álgebra generado por el RVσ - σσσσ
Chill2Macht
3
@William Y puedo referirte a fuentes que sí definen la condición. exep. de un evento para ser un número real. No sé por qué estás tan atrapado en este punto. Se puede definir de cualquier manera, siempre y cuando las nociones no se mezclen. Por razones pedagógicas, se imparte una clase sobre problemas. teoría, e instantáneamente saltar a la definición más general, no es esclarecedora. En cualquier caso, realmente no importa en esta discusión, y su queja es sobre notación / semántica.
Nicolas Bourbaki
1
@NicolasBourbaki El Capítulo 5 de Probabilidad de Whittle vía Expectativa da una muy buena explicación (en mi opinión) de ambas caracterizaciones de la expectativa condicional, y explica bien cómo cada definición se relaciona y está motivada por la otra definición. Tienes razón en que la distinción es una más de semántica. Mi entusiasmo por la definición más general se deriva (creo) de la lectura de este capítulo (5 de Probabilidad de Whittle a través de la expectativa ), que hizo (creo) buenos argumentos sobre cómo la definición más general es de alguna manera más fácil de entender.
Chill2Macht
3

Voy a tratar de elaborar lo que sugirió William.

Sea el espacio muestral de lanzar una moneda dos veces. Define la carrera. var. para ser el num. de cabezas que ocurren en el experimento. Claramente, . Una forma de pensar en lo que , como expec. valor, representa es la mejor estimación posible para . Si tuviéramos que adivinar qué valor tomaría , adivinaríamos . Esto se debe a que para cualquier número real .ξ E [ ξ ] = 1 1 ξ ξ 1 E [ ( ξ - 1 ) 2 ] E [ ( ξ - aΩξE[ξ]=11ξξ1aE[(ξ1)2]E[(ξa)2]a

Denote con como el evento de que el primer resultado es una cabeza. Deje que sea ​​el -alg. gen. por . Pensamos que representa lo que sabemos después del primer lanzamiento. Después del primer lanzamiento, las cabezas ocurrieron o las cabezas no ocurrieron. Por lo tanto, estamos en el evento o después del primer lanzamiento.G = { , A , A c , Ω } σ A GA={HT,HH}G={,A,Ac,Ω}σAGA cAAc

Si estamos en el evento , entonces la mejor estimación posible para sería , y si estamos en el evento , entonces la mejor estimación posible para sería .ξ E [ ξ | A ] = 1.5 A c ξ E [ ξAξE[ξ|A]=1.5AcξE[ξ|Ac]=0.5

Ahora defina la carrera. var. para ser ya sea o en función de si o no . Esto corrio. var. , es una mejor aproximación que ya que .1.5 0.5 ω A η 1 = E [ ξ ] E [ ( ξ - η ) 2 ] E [ ( ξη(ω)1.50.5ωAη1=E[ξ]E[(ξη)2]E[(ξ1)2]

Lo que está haciendo es proporcionar la respuesta a la pregunta: ¿cuál es la mejor estimación de después del primer lanzamiento? Dado que no conocemos la información después de la primera tirada, dependerá de . Una vez que se nos revela el evento , después del primer lanzamiento, se determina el valor de y proporciona la mejor estimación posible para . ξ η A GηξηAGξηξ

El problema con el uso de como su propia estimación, es decir, es el siguiente. no está bien definido después del primer lanzamiento. Digamos que el resultado del experimento es con el primer resultado como cabezas, estamos en el evento , pero ¿qué esNo sabemos desde el primer lanzamiento, que el valor es ambiguo para nosotros, por lo que no está bien definido. Más formalmente, decimos que no es medible, es decir, su valor no está bien definido después del primer lanzamiento. Por lo tanto, es la mejor estimación posible de0 = E [ ( ξ - ξ ) 2 ] E [ ( ξ - η ) 2 ] ξ ω A ξ ( ω ) = ? ξ ξ G η ξξ0=E[(ξξ)2]E[(ξη)2]ξωAξ(ω)=?ξξGηξ después del primer lanzamiento.

Quizás, alguien aquí pueda encontrar un ejemplo más sofisticado usando el espacio muestral , con , y algunos no triviales álgebra.ξ ( ω ) = ω G σ[0,1]ξ(ω)=ωGσ

Nicolas Bourbaki
fuente
1

Aunque solicite no utilizar la definición formal, creo que la definición formal es probablemente la mejor manera de explicarla.

Wikipedia - expectativa condicional :

Entonces, una expectativa condicional de X dada , denotada como , es cualquier medible ( ) que satisface: E(X H ) H Ω R nHE(XH)HΩRn

HE(XH)dP=HXdPfor eachHH

En primer lugar, es una función medible. En segundo lugar, debe coincidir con la expectativa sobre cada (sub) conjunto medible en . Entonces, para un evento, A, el álgebra sigma es , por lo que claramente se establece como especificó en su pregunta para . De manera similar para cualquier variable aleatoria discreta (y combinaciones de ellas), enumeramos todos los eventos primitivos y asignamos la expectativa dada ese evento primitivo.H {A,AC,,Ω}ωA/AcHH{A,AC,,Ω}ωA/Ac

Ahora considere lanzar una moneda un número infinito de veces, donde en cada lanzamiento i, obtiene , si su moneda es cruz, entonces sus ganancias totales son donde = 1 para colas y 0 para cabezas. Entonces X es una variable aleatoria real en . Después de n lanzamientos de monedas, conoce el valor de X con precisión 1/2 , por ejemplo, después de 2 lanzamientos de monedas está en [0,1 / 4], [1 / 4,1 / 2], [1/2, 3/4] o [3 / 4,1]: después de cada lanzamiento de moneda, su álgebra sigma asociada se vuelve cada vez más fina, y de manera similar, la expectativa condicional de X se vuelve cada vez más precisa. X = sigma i = 1 11/2ici[0,1]1/2nX=i=112icici[0,1]1/2n

Con suerte, este ejemplo de una variable aleatoria valorada real con una secuencia de álgebras sigma cada vez más finas (Filtración) lo aleja de la intuición puramente basada en eventos a la que está acostumbrado y aclara su propósito.

seanv507
fuente
Pido disculpas, pero rechacé esta pregunta. No responde lo que pregunté originalmente. Tampoco proporciona ninguna información nueva que no conocía antes.
Nicolas Bourbaki el
Lo que estoy tratando de sugerirte es que no entiendes la definición formal tan bien como crees que lo haces (como la otra respuesta también sugirió), así que a menos que trabajes en lo que no es intuitivo con la definición formal, no progresarás.
seanv507
Entiendo la definición formal muy bien. Las preguntas que hice, sé cómo responderlas cuando trabajo a partir de las definiciones formales. La 'otra respuesta' estaba tratando de explicar mi pregunta sin usar la definición de estafa. Exp.
Nicolas Bourbaki el