Problema con la prueba de expectativa condicional como mejor predictor

19

Tengo un problema con la prueba de

mi(YEl |X)argminsol(X)mi[(Y-sol(X))2]

que muy probablemente revelen un malentendido más profundo de las expectativas y expectativas condicionales.

La prueba que conozco es la siguiente (puede encontrar otra versión de esta prueba aquí )

argming(X)E[(Yg(x))2]=argming(X)E[(YE(Y|X)+E(Y|X)g(X))2]=argminsol(X)mi[(Y-mi(YEl |X))2+2(Y-mi(YEl |X))(mi(YEl |X)-sol(X))+(mi(YEl |X)-sol(X))2]=argminsol(X)mi[2(Y-mi(YEl |X))(mi(YEl |X)-sol(X))+(mi(YEl |X)-sol(X))2]

Luego, la prueba generalmente continúa con un argumento que muestra que 2mi[(Y-mi(YEl |X))(mi(YEl |X)-sol(X))]=0 0 , y por lo tanto

argming(x)E[(Yg(x))2]=argming(x)E[(E(Y|X)g(X))2]

que puede verse minimizado cuando g(X)=E(Y|X) .

Mis acertijos sobre la prueba son los siguientes:

  1. Considerar

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2] .

Me parece que, independientemente de cualquier argumento que muestre que el primer término siempre es igual a cero, se puede ver que el establecimiento de g(X)=E(Y|X) minimiza la expresión, ya que implica (E(Y|X)g(X))=0 0 y por lo tanto

mi[2(Y-mi(YEl |X))(mi(YEl |X)-sol(X))+(mi(YEl |X)-sol(X))2]=mi(0 0+0 0) = 0.

Pero si esto es cierto, entonces uno podría repetir la prueba reemplazando por cualquier otra función de , digamos , y llegar a la conclusión de que es que minimiza la expresión. Entonces debe haber algo que no entiendo (¿verdad?).X h ( X ) h ( X )mi(YEl |X)Xh(X)h(X)

  1. Tengo algunas dudas sobre el significado de en el enunciado del problema. ¿Cómo debe interpretarse la notación? Eso significami[(Y-sol(X))2]

miX[(Y-sol(X))2] , o ?E X Y [ ( Y - g ( X ) ) 2 ]miY[(Y-sol(X))2]miXY[(Y-sol(X))2]

Martin Van der Linden
fuente

Respuestas:

11

(Esta es una adaptación de Granger & Newbold (1986) "Forecasting Economic Time Series").

Por construcción, su función de costo de error es . Esto incorpora un supuesto crítico (que la función de costo de error es simétrica alrededor de cero): una función de costo de error diferente no necesariamente tendría el valor esperado condicional como de su valor esperado. No puede minimizar su función de costo de error porque contiene cantidades desconocidas. Por lo tanto, decide minimizar su valor esperado. Entonces tu función objetivo se convierte argmín.[Y-sol(X)]2argmin

mi[Y-sol(X)]2=-[y-sol(X)]2FYEl |X(yEl |X)rey

que creo que responde también a tu segunda pregunta. Es intuitivo que el valor esperado será de condicionada a , ya que estamos tratando de estimar / pronosticar basado en . Descomponer el cuadrado para obtenerX Y XYXYX

mi[Y-sol(X)]2=-y2FYEl |X(yEl |X)rey-2sol(X)-yFYEl |X(yEl |X)rey+[sol(X)]2-FYEl |X(yEl |X)rey

El primer término no contiene por lo que no afecta a la minimización y puede ignorarse. La integral en el segundo término es igual al valor condicional esperado de dado , y la integral en el último término es igual a la unidad. EntoncesY Xsol(X)YX

argminsol(X)mi[Y-sol(X)]2=argminsol(X){-2sol(X)mi(YX)+[sol(X)]2}

La primera derivada wrt es conduce a la condición de primer orden para la minimización mientras que la segunda derivada es igual a que es suficiente para un mínimo.- 2 E ( Y X ) + 2 g ( X ) g ( X ) = E ( Y X ) 2 > 0sol(X)-2mi(YX)+2sol(X)sol(X)=mi(YX)2>0 0

APÉNDICE: La lógica del enfoque de prueba "sumar y restar".

El OP está desconcertado por el enfoque planteado en la pregunta, porque parece tautológico. No lo es, porque si bien la táctica de sumar y restar hace que una parte específica de la función objetivo sea cero para una elección arbitraria del término que se suma y resta, NO iguala la función de valor , es decir, el valor del objetivo función evaluada en el candidato minimizador.

Para la opción tenemos la función de valor Para la elección arbitraria tenemos la función de valor .V ( E ( Y X ) ) = E [ ( Y - E ( Y X ) ) 2X ] g ( X ) = h ( X ) V ( h ( X ) ) = E [ ( Y - h (sol(X)=mi(YX)V(mi(YX))=mi[(Y-mi(YX))2X]sol(X)=h(X)V(h(X))=mi[(Y-h(X))2X]

Afirmo que

E ( Y 2X ) - 2 E [ ( Y E ( Y X ) ) X ] + E [ ( E ( Y X ) ) 2X ]

V(mi(YX))V(h(X))
mi(Y2X)-2mi[(Ymi(YX))X]+mi[(mi(YX))2X]mi(Y2X)-2mi[(Yh(X))X]+mi[(h(X))2X]

El primer término del LHS y el RHS se cancelan. También tenga en cuenta que la expectativa exterior está condicionada a . Por las propiedades de las expectativas condicionales terminamos conX

...-2mi(YX)mi(YX)+[mi(YX)]2-2mi(YX)h(X)+[h(X)]2

0 0[mi(YX)]2-2mi(YX)h(X)+[h(X)]2

0 0[mi(YX)-h(X)]2
que se mantiene con estricta desigualdad si . Entonces es el minimizador global y único.h(X)mi(YX)mi(YX)

Pero esto también dice que el enfoque de "sumar y restar" no es la forma más ilustrativa de prueba aquí.

Alecos Papadopoulos
fuente
Gracias por tu respuesta. Ayuda a aclarar mi segunda pregunta. Como traté de transmitir en el título de la pregunta, mi problema principal (el primero en la publicación) fue más sobre el mecanismo de prueba. Mi principal preocupación es mi comprensión de la prueba que presenté en la pregunta. Como expliqué, mi comprensión de la prueba me lleva a una declaración descaradamente problemática. Así que me gustaría entender si mi error es que podría revelar algunos malentendidos más profundos sobre los conceptos de expectativa y expectativa condicional. ¿Alguna idea sobre esto?
Martin Van der Linden
1
Agregué alguna explicación sobre el enfoque de "sumar y restar" a la prueba.
Alecos Papadopoulos
Me tomó algo de tiempo entenderlo, pero finalmente obtuve mi error básico: bastante cierto cuando , pero de ninguna manera implica que minimiza la expresión . No hay razón para que la expresión entre corchetes no pueda ser inferior a cero. Debido al signo menos delante de se puede encontrar algo de tal que . mi[-2(Y-h(X))(h(X)-sol(X))+(h(X)-sol(X))2]=0 0sol(X)=h(X)h(X)(Y-h(X))(h(X)-sol(X))sol(X)mi[-2(Y-h(X))(h(X)-sol(X))+(h(X)-sol(X))2]<0 0
Martin Van der Linden
1
Hmmm ... el signo menos en la expresión a la que te refieres es un error, debería ser un signo más. Por supuesto, podría reorganizar los términos para obtener nuevamente un signo menos ... ¿esto perjudica la intuición que ganó?
Alecos Papadopoulos
Gracias por seguir con la pregunta. Edité la publicación inicial para corregir este error. Afortunadamente, creo que no hace daño a la intuición adquirida. En realidad, me ayuda a comprender otro error más: estaba asumiendo que el signo menos era importante para garantizar que no fuera necesariamente el mínimo de . Pero me doy cuenta de que esto no se trata sólo de la señal antes de que el 2. (con suerte) Lo que realmente se necesita para entender es que, en general (es decir, para arbitraria ) no necesita minimizarse cuando (¿verdad?). 0 0mi[-2(Y-h(X))(h(X)-sol(X))+(h(X)-sol(X))2]h(X)mi[2(Y-h(X))(h(X)-sol(X))]sol(X)=h(X)
Martin Van der Linden
5

Tenga en cuenta que para probar la respuesta, solo necesita mostrar que

mi[-2(Y-mi(YEl |X))(mi(YEl |X)-sol(X))]=0 0

En cuanto a qué expectativa tomar, lo tomas condicionalmente, de lo contrario, el término

argminsol(X)mi[(Y-sol(X))2]

No tiene sentido, ya que es una variable aleatoria si es y no . Demuestre que realmente debería escribir o para aclarar esto. Ahora, dada esta aclaración, el término es una constante y puede extraerse de la expedición, y usted tiene:sol(X)mimiXYmiYEl |Xmi[(Y-sol(X))2El |X]miYEl |X[(Y-sol(X))2](mi(YEl |X)-sol(X))

-2(mi(YEl |X)-sol(X))mi[(Y-mi(YEl |X))El |X]=-2(mi(YEl |X)-sol(X))[mi(YEl |X)-mi[mi(YEl |X)El |X]]=-2(mi(YEl |X)-sol(X))[mi(YEl |X)-mi(YEl |X)]=0 0

Por lo tanto, puede escribir la función objetivo como:

miYEl |X[(Y-sol(X))2]=miYEl |X[(Y-miYEl |X(YEl |X))2]+(miYEl |X(YEl |X)-sol(X))2

El minimizador es obvio desde aquí. Tenga en cuenta que si también promediara sobre , entonces se puede usar un argumento muy similar para mostrar:X

miX[(mi(YEl |X)-sol(X))2]=miX[(miYEl |X(YEl |X)-miX[miYEl |X(YEl |X)])2]+(miX[miYEl |X(YEl |X)]-miX[sol(X)])2

Esto muestra que si establece para cada , también tiene un minimizador sobre esta función. Entonces, en cierto sentido, realmente no importa si es o .sol(X)=miYEl |X(YEl |X)XmimiYXmiYEl |X

probabilidadislogica
fuente
3

Hay un punto de vista matemático que es muy simple. Lo que tiene es un problema de proyección en un espacio de Hilbert, muy parecido a proyectar un vector en en un subespacio.Rnorte

Deje denotar el espacio de probabilidad subyacente. Para que el problema tenga sentido, considere las variables aleatorias con segundos momentos finitos, es decir, el espacio de Hilbert . El problema ahora es este: dado , encuentra la proyección de en el subespacio , donde es la -subalgebra de generado por . (Al igual que en el caso de dimensión finita, minimizar la distancia a un subespacio significa encontrar la proyección). La proyección deseada es(Ω,F,μ)L2(Ω,F,μ)X,YL2(Ω,F,μ)YL2(Ω,FX,μ)FXσFXL2mi(XEl |Y) , por construcción. (Esto en realidad caracteriza a , si uno inspecciona la prueba de existencia).mi(XEl |Y)

Miguel
fuente
Esta es una hermosa respuesta.
jII
0

Con respecto a su última pregunta, la expectativa puede ser wrt (el error incondicional) o wrt (el error condicional en cada valor ). Felizmente, minimizar el error condicional en cada valor también minimiza el error incondicional, por lo que esta no es una distinción crucial.pag(X,y)pag(yX)X=XX=X

Ulisses Braga-Neto
fuente