(Esta es una adaptación de Granger & Newbold (1986) "Forecasting Economic Time Series").
Por construcción, su función de costo de error es . Esto incorpora un supuesto crítico (que la función de costo de error es simétrica alrededor de cero): una función de costo de error diferente no necesariamente tendría el valor esperado condicional como de su valor esperado. No puede minimizar su función de costo de error porque contiene cantidades desconocidas. Por lo tanto, decide minimizar su valor esperado. Entonces tu función objetivo se convierte argmín.[ Y- g( X) ]2argmin
mi[ Y- g( X) ]2= ∫∞- ∞[ y- g( X) ]2FYEl | X( yEl | x)dy
que creo que responde también a tu segunda pregunta. Es intuitivo que el valor esperado será de condicionada a , ya que estamos tratando de estimar / pronosticar basado en . Descomponer el cuadrado para obtenerX Y XYXYX
mi[ Y- g( X) ]2= ∫∞- ∞y2FYEl | X( yEl | x)dy- 2 g( X) ∫∞- ∞yFYEl | X( yEl | x)dy+ [ g( X) ]2∫∞- ∞FYEl | X( yEl | x)dy
El primer término no contiene por lo que no afecta a la minimización y puede ignorarse. La integral en el segundo término es igual al valor condicional esperado de dado , y la integral en el último término es igual a la unidad. EntoncesY Xsol( X)YX
argminsol( x )mi[ Y- g( X) ]2= argminsol( x ){ -2g( X) E( Y∣ X) + [ g( X) ]2}
La primera derivada wrt es conduce a la condición de primer orden para la minimización mientras que la segunda derivada es igual a que es suficiente para un mínimo.- 2 E ( Y ∣ X ) + 2 g ( X ) g ( X ) = E ( Y ∣ X ) 2 > 0sol( X)- 2 E( Y∣ X) + 2 g( X)sol( X) = E( Y∣ X)2 > 0
APÉNDICE: La lógica del enfoque de prueba "sumar y restar".
El OP está desconcertado por el enfoque planteado en la pregunta, porque parece tautológico. No lo es, porque si bien la táctica de sumar y restar hace que una parte específica de la función objetivo sea cero para una elección arbitraria del término que se suma y resta, NO iguala la función de valor , es decir, el valor del objetivo función evaluada en el candidato minimizador.
Para la opción tenemos la función de valor
Para la elección arbitraria tenemos la función de valor .V ( E ( Y ∣ X ) ) = E [ ( Y - E ( Y ∣ X ) ) 2 ∣ X ] g ( X ) = h ( X ) V ( h ( X ) ) = E [ ( Y - h (sol( X) = E( Y∣ X)V( E( Y∣ X) ) = E[ ( Y- E( Y∣ X) )2∣ X]sol( X) = h ( X)V( h ( X) ) = E[ ( Y- h ( X) )2∣ X]
Afirmo que
⇒ E ( Y 2 ∣ X ) - 2 E [ ( Y E ( Y ∣ X ) ) ∣ X ] + E [ ( E ( Y ∣ X ) ) 2 ∣ X ]
V( E( Y∣ X) ) ≤ V( h ( X) )
⇒ E( Y2∣ X) - 2 E[ ( Ymi( Y∣ X) ) ∣ X] +E[ ( E( Y∣ X) )2∣ X]≤ E( Y2∣ X) - 2 E[ ( Yh ( X) ) ∣ X] +E[ (h(X) )2∣ X]
El primer término del LHS y el RHS se cancelan. También tenga en cuenta que la expectativa exterior está condicionada a . Por las propiedades de las expectativas condicionales terminamos conX
. . . ⇒ - 2 E( Y∣ X) ⋅ E( Y∣ X) + [ E( Y∣ X) ]2≤ - 2 E( Y∣ X) h ( X) + [ h ( X) ]2
⇒ 0 ≤ [ E( Y∣ X) ]2- 2 E( Y∣ X) h ( X) + [ h ( X) ]2
⇒ 0 ≤ [ E( Y∣ X) - h ( x ) ]2
que se mantiene con estricta desigualdad si . Entonces es el minimizador global y único.
h ( x ) ≠ E( Y∣ X)mi( Y∣ X)
Pero esto también dice que el enfoque de "sumar y restar" no es la forma más ilustrativa de prueba aquí.
Tenga en cuenta que para probar la respuesta, solo necesita mostrar que
En cuanto a qué expectativa tomar, lo tomas condicionalmente, de lo contrario, el término
No tiene sentido, ya que es una variable aleatoria si es y no . Demuestre que realmente debería escribir o para aclarar esto. Ahora, dada esta aclaración, el término es una constante y puede extraerse de la expedición, y usted tiene:sol( X) mi miXY miYEl | X mi[ ( Y- g( X) )2El | X] miYEl | X[ ( Y- g( X) )2] ( E( YEl | X) - g( X) )
Por lo tanto, puede escribir la función objetivo como:
El minimizador es obvio desde aquí. Tenga en cuenta que si también promediara sobre , entonces se puede usar un argumento muy similar para mostrar:X
Esto muestra que si establece para cada , también tiene un minimizador sobre esta función. Entonces, en cierto sentido, realmente no importa si es o .sol( X) = EYEl | X( YEl | X) X mi miYX miYEl | X
fuente
Hay un punto de vista matemático que es muy simple. Lo que tiene es un problema de proyección en un espacio de Hilbert, muy parecido a proyectar un vector en en un subespacio.Rnorte
Deje denotar el espacio de probabilidad subyacente. Para que el problema tenga sentido, considere las variables aleatorias con segundos momentos finitos, es decir, el espacio de Hilbert . El problema ahora es este: dado , encuentra la proyección de en el subespacio , donde es la -subalgebra de generado por . (Al igual que en el caso de dimensión finita, minimizar la distancia a un subespacio significa encontrar la proyección). La proyección deseada es( Ω , F, μ ) L2( Ω , F, μ ) X, Y∈ L2( Ω , F, μ ) Y L2( Ω , FX, μ ) FX σ F X L2 mi( XEl | Y) , por construcción. (Esto en realidad caracteriza a , si uno inspecciona la prueba de existencia).mi( XEl | Y)
fuente
Con respecto a su última pregunta, la expectativa puede ser wrt (el error incondicional) o wrt (el error condicional en cada valor ). Felizmente, minimizar el error condicional en cada valor también minimiza el error incondicional, por lo que esta no es una distinción crucial.p ( x , y) p ( y∣ x ) X= x X= x
fuente