Problema con la prueba de expectativa condicional como mejor predictor

19

Tengo un problema con la prueba de

$E(Y|X) \in \arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big]$

que muy probablemente revelen un malentendido más profundo de las expectativas y expectativas condicionales.

La prueba que conozco es la siguiente (puede encontrar otra versión de esta prueba aquí )

\begin{aligned} \arg min_{g (X)} E [(Y - g (x))^{2}] \\ = & \arg min_{g (X)} E [(Y - E (Y | X) + E (Y | X) - g (X))^{2}] \\ = & \arg min_{sol (X)} mi [(Y - mi (Y El | X))^{2} + 2 (Y - mi (Y El | X)) (mi (Y El | X) - sol (X)) + (mi (Y El | X) - sol (X))^{2}] \\ = & \arg min_{sol (X)} mi [2 (Y - mi (Y El | X)) (mi (Y El | X) - sol (X)) + (mi (Y El | X) - sol (X))^{2}] \end{aligned}

$\begin{align*} &\arg \min_{g(X)} E\Big[\big(Y - g(x)\big)^2\Big]\\ = &\arg \min_{g(X)} E \Big[ \big(Y - E(Y|X) + E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E \Big[ \big(Y - E(Y|X)\big)^2 + 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]\\ =&\arg \min_{g(x)} E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]\\ \end{align*}$

Luego, la prueba generalmente continúa con un argumento que muestra que $2 E\Big[ \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big)\Big] = 0$ , y por lo tanto

\begin{aligned} \arg min_{g (x)} E [(Y - g (x))^{2}] = \arg min_{g (x)} E [(E (Y | X) - g (X))^{2}] \end{aligned}

$\begin{align*} \arg \min_{g(x)} E\Big[\big(Y - g(x)\big)^2\Big] = \arg \min_{g(x)} E \Big[\big(E(Y|X) - g(X)\big)^2\Big] \end{align*}$

que puede verse minimizado cuando $g(X) = E(Y|X)$ .

Mis acertijos sobre la prueba son los siguientes:

Considerar

$E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big]$ .

Me parece que, independientemente de cualquier argumento que muestre que el primer término siempre es igual a cero, se puede ver que el establecimiento de $g(X) = E(Y|X)$ minimiza la expresión, ya que implica $\big(E(Y|X) - g(X)\big) =0$ y por lo tanto

$E \Big[ 2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) + \big(E(Y|X) - g(X)\big)^2\Big] = E( 0 + 0)$ = 0.

Pero si esto es cierto, entonces uno podría repetir la prueba reemplazando por cualquier otra función de , digamos , y llegar a la conclusión de que es que minimiza la expresión. Entonces debe haber algo que no entiendo (¿verdad?). $E(Y|X)$ $X$ $h(X)$ $h(X)$

Tengo algunas dudas sobre el significado de en el enunciado del problema. ¿Cómo debe interpretarse la notación? Eso significa $E[(Y−g(X))^2]$

$E_X[(Y−g(X))^2]$ , o ? $E_Y[(Y−g(X))^2]$ $E_{XY}[(Y−g(X))^2]$

mathematical-statistics conditional-probability proof conditional-expectation Martin Van der Linden
fuente

11

(Esta es una adaptación de Granger & Newbold (1986) "Forecasting Economic Time Series").

Por construcción, su función de costo de error es . Esto incorpora un supuesto crítico (que la función de costo de error es simétrica alrededor de cero): una función de costo de error diferente no necesariamente tendría el valor esperado condicional como de su valor esperado. No puede minimizar su función de costo de error porque contiene cantidades desconocidas. Por lo tanto, decide minimizar su valor esperado. Entonces tu función objetivo se convierte $\left[Y-g(X)\right]^2$ $\arg \min$

mi {[Y - sol (X)]}^{2} = \int_{- \infty}^{\infty} {[y - sol (X)]}^{2} F_{Y El | X} (y El | X) re y

$E\left[Y-g(X)\right]^2 = \int_{-\infty}^{\infty}\left[y-g(X)\right]^2f_{Y|X}(y|x)dy$

que creo que responde también a tu segunda pregunta. Es intuitivo que el valor esperado será de condicionada a , ya que estamos tratando de estimar / pronosticar basado en . Descomponer el cuadrado para obtener $Y$ $X$ $Y$ $X$

mi {[Y - sol (X)]}^{2} = \int_{- \infty}^{\infty} y^{2} F_{Y El | X} (y El | X) re y - 2 sol (X) \int_{- \infty}^{\infty} y F_{Y El | X} (y El | X) re y + [sol (X)]^{2} \int_{- \infty}^{\infty} F_{Y El | X} (y El | X) re y

$E\left[Y-g(X)\right]^2 = \int_{-\infty}^{\infty}y^2f_{Y|X}(y|x)dy -2g(X)\int_{-\infty}^{\infty}yf_{Y|X}(y|x)dy \\+ \Big[g(X)\Big]^2\int_{-\infty}^{\infty}f_{Y|X}(y|x)dy$

El primer término no contiene por lo que no afecta a la minimización y puede ignorarse. La integral en el segundo término es igual al valor condicional esperado de dado , y la integral en el último término es igual a la unidad. Entonces $g(X)$ $Y$ $X$

\arg min_{sol (X)} mi {[Y - sol (X)]}^{2} = \arg min_{sol (X)} {- 2 sol (X) mi (Y ∣ X) + [sol (X)]^{2}}

$\arg \min_{g(x)} E\left[Y-g(X)\right]^2 = \arg \min_{g(x)} \Big\{ -2g(X)E(Y\mid X) + \Big[g(X)\Big]^2 \Big\}$

La primera derivada wrt es conduce a la condición de primer orden para la minimización mientras que la segunda derivada es igual a que es suficiente para un mínimo. $g(X)$ $-2E(Y\mid X) + 2g(X)$ $g(X) = E(Y\mid X)$ $2>0$

APÉNDICE: La lógica del enfoque de prueba "sumar y restar".

El OP está desconcertado por el enfoque planteado en la pregunta, porque parece tautológico. No lo es, porque si bien la táctica de sumar y restar hace que una parte específica de la función objetivo sea cero para una elección arbitraria del término que se suma y resta, NO iguala la función de valor , es decir, el valor del objetivo función evaluada en el candidato minimizador.

Para la opción tenemos la función de valor Para la elección arbitraria tenemos la función de valor . $g(X) = E(Y \mid X)$ $V\left(E(Y\mid X)\right) = E\Big[ (Y-E(Y \mid X))^2\mid X\Big]$ $g(X) = h(X)$ $V\left(h(X)\right) = E\Big[ (Y-h(X))^2\mid X\Big]$

Afirmo que

V (mi (Y ∣ X)) \leq V (h (X))

$V\left(E(Y\mid X)\right) \le V\left(h(X)\right)$

\Rightarrow mi (Y^{2} ∣ X) - 2 mi [(Y mi (Y ∣ X)) ∣ X] + mi [(mi (Y ∣ X))^{2} ∣ X] \leq mi (Y^{2} ∣ X) - 2 mi [(Y h (X)) ∣ X] + mi [(h (X))^{2} ∣ X]

$\Rightarrow E(Y^2\mid X) -2E\Big [(YE(Y \mid X))\mid X\Big] + E\Big [(E(Y \mid X))^2\mid X\Big] \\\le E(Y^2\mid X) -2E\Big [(Yh(X))\mid X\Big] + E\Big [(h(X))^2\mid X\Big]$

El primer término del LHS y el RHS se cancelan. También tenga en cuenta que la expectativa exterior está condicionada a . Por las propiedades de las expectativas condicionales terminamos con $X$

. . . \Rightarrow - 2 mi (Y ∣ X) \cdot mi (Y ∣ X) + [mi (Y ∣ X)]^{2} \leq - 2 mi (Y ∣ X) h (X) + [h (X)]^{2}

$...\Rightarrow -2E(Y \mid X)\cdot E\Big (Y\mid X\Big) + \Big [E(Y \mid X)\Big]^2 \le -2E(Y\mid X)h(X) + \Big [h(X)\Big]^2$

\Rightarrow 0 0 \leq [mi (Y ∣ X)]^{2} - 2 mi (Y ∣ X) h (X) + [h (X)]^{2}

$\Rightarrow 0 \le \Big [E(Y \mid X)\Big]^2-2E(Y\mid X)h(X) + \Big [h(X)\Big]^2$

\Rightarrow 0 0 \leq [mi (Y ∣ X) - h (X)]^{2}

$\Rightarrow 0 \le \Big [E(Y \mid X) - h(x)\Big]^2$ que se mantiene con estricta desigualdad si . Entonces es el minimizador global y único.

h (x) \neq E (Y ∣ X)

$h(x) \neq E(Y \mid X)$

E (Y ∣ X)

$E(Y \mid X)$

Pero esto también dice que el enfoque de "sumar y restar" no es la forma más ilustrativa de prueba aquí.

Alecos Papadopoulos
fuente

Gracias por tu respuesta. Ayuda a aclarar mi segunda pregunta. Como traté de transmitir en el título de la pregunta, mi problema principal (el primero en la publicación) fue más sobre el mecanismo de prueba. Mi principal preocupación es mi comprensión de la prueba que presenté en la pregunta. Como expliqué, mi comprensión de la prueba me lleva a una declaración descaradamente problemática. Así que me gustaría entender si mi error es que podría revelar algunos malentendidos más profundos sobre los conceptos de expectativa y expectativa condicional. ¿Alguna idea sobre esto?

Martin Van der Linden

1

Agregué alguna explicación sobre el enfoque de "sumar y restar" a la prueba.

Alecos Papadopoulos

Me tomó algo de tiempo entenderlo, pero finalmente obtuve mi error básico: bastante cierto cuando , pero de ninguna manera implica que minimiza la expresión . No hay razón para que la expresión entre corchetes no pueda ser inferior a cero. Debido al signo menos delante de se puede encontrar algo de tal que .

E [- 2 (Y - h (X)) (h (X) - g (X)) + (h (X) - g (X))^{2}] = 0

$E \Big[ - 2 \big(Y - h(X) \big) \big(h(X) - g(X)\big) + \big(h(X) - g(X)\big)^2\Big] = 0$

g (X) = h (X)

$g(X) = h(X)$

h (X)

$h(X)$

(Y - h (X)) (h (X) - g (X))

$\big(Y - h(X) \big) \big(h(X) - g(X)\big)$

g (X)

$g(X)$

E [- 2 (Y - h (X)) (h (X) - g (X)) + (h (X) - g (X))^{2}] < 0

$E \Big[ - 2 \big(Y - h(X) \big) \big(h(X) - g(X)\big) + \big(h(X) - g(X)\big)^2\Big] < 0$

Martin Van der Linden

1

Hmmm ... el signo menos en la expresión a la que te refieres es un error, debería ser un signo más. Por supuesto, podría reorganizar los términos para obtener nuevamente un signo menos ... ¿esto perjudica la intuición que ganó?

Alecos Papadopoulos

Gracias por seguir con la pregunta. Edité la publicación inicial para corregir este error. Afortunadamente, creo que no hace daño a la intuición adquirida. En realidad, me ayuda a comprender otro error más: estaba asumiendo que el signo menos era importante para garantizar que no fuera necesariamente el mínimo de . Pero me doy cuenta de que esto no se trata sólo de la señal antes de que el 2. (con suerte) Lo que realmente se necesita para entender es que, en general (es decir, para arbitraria ) no necesita minimizarse cuando (¿verdad?).

0

$0$

E [- 2 (Y - h (X)) (h (X) - g (X)) + (h (X) - g (X))^{2}]

$E[−2(Y−h(X))(h(X)−g(X))+(h(X)−g(X))^2]$

h (X)

$h(X)$

E [2 (Y - h (X)) (h (X) - g (X))]

$E[2(Y−h(X))(h(X)−g(X))]$

g (X) = h (X)

$g(X)=h(X)$

Martin Van der Linden

5

Tenga en cuenta que para probar la respuesta, solo necesita mostrar que

mi [- 2 (Y - mi (Y El | X)) (mi (Y El | X) - sol (X))] = 0 0

$E \Big[ -2 \big(Y - E(Y|X)\big) \big(E(Y|X) - g(X)\big) \Big] = 0$

En cuanto a qué expectativa tomar, lo tomas condicionalmente, de lo contrario, el término

\arg min_{sol (X)} mi [(Y - sol (X))^{2}]

$\arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big]$

No tiene sentido, ya que es una variable aleatoria si es y no . Demuestre que realmente debería escribir o para aclarar esto. Ahora, dada esta aclaración, el término es una constante y puede extraerse de la expedición, y usted tiene: $g(X)$ $E$ $E_{XY}$ $E_{Y|X}$ $E\Big[\big(Y - g(X)\big)^2|X\Big]$ $E_{Y|X}\Big[\big(Y - g(X)\big)^2\Big]$ $\big(E(Y|X) - g(X)\big)$

- 2 (mi (Y El | X) - sol (X)) mi [(Y - mi (Y El | X)) El | X] = - 2 (mi (Y El | X) - sol (X)) [mi (Y El | X) - mi [mi (Y El | X) El | X]] = - 2 (mi (Y El | X) - sol (X)) [mi (Y El | X) - mi (Y El | X)] = 0 0

Por lo tanto, puede escribir la función objetivo como:

{mi}_{Y El | X} [(Y - sol (X))^{2}] = {mi}_{Y El | X} [(Y - {mi}_{Y El | X} (Y El | X))^{2}] + ({mi}_{Y El | X} (Y El | X) - sol (X))^{2}

$E_{Y|X}\Big[\big(Y - g(X)\big)^2\Big]=E_{Y|X}\Big[\big(Y - E_{Y|X}(Y|X)\big)^2\Big]+\big(E_{Y|X}(Y|X) - g(X)\big)^2$

El minimizador es obvio desde aquí. Tenga en cuenta que si también promediara sobre , entonces se puede usar un argumento muy similar para mostrar: $X$

{mi}_{X} [(mi (Y El | X) - sol (X))^{2}] = {mi}_{X} [({mi}_{Y El | X} (Y El | X) - {mi}_{X} [{mi}_{Y El | X} (Y El | X)])^{2}] + ({mi}_{X} [{mi}_{Y El | X} (Y El | X)] - {mi}_{X} [sol (X)])^{2}

$E_{X}\Big[\big(E(Y|X) - g(X)\big)^2\Big]=E_{X}\Big[\big(E_{Y|X}(Y|X) - E_X\big[E_{Y|X}(Y|X)\big]\big)^2\Big]+\Big(E_{X}\big[E_{Y|X}(Y|X)\big] - E_X\big[g(X)\big]\Big)^2$

Esto muestra que si establece para cada , también tiene un minimizador sobre esta función. Entonces, en cierto sentido, realmente no importa si es o . $g(X)=E_{Y|X}(Y|X)$ $X$ $E$ $E_{YX}$ $E_{Y|X}$

probabilidadislogica
fuente

3

Hay un punto de vista matemático que es muy simple. Lo que tiene es un problema de proyección en un espacio de Hilbert, muy parecido a proyectar un vector en en un subespacio. $\mathbb{R}^n$

Deje denotar el espacio de probabilidad subyacente. Para que el problema tenga sentido, considere las variables aleatorias con segundos momentos finitos, es decir, el espacio de Hilbert . El problema ahora es este: dado , encuentra la proyección de en el subespacio , donde es la -subalgebra de generado por . (Al igual que en el caso de dimensión finita, minimizar la distancia a un subespacio significa encontrar la proyección). La proyección deseada es $(\Omega, \mathcal{F}, \mu)$ $L^2(\Omega, \mathcal{F}, \mu)$ $X, Y \in L^2(\Omega, \mathcal{F}, \mu)$ $Y$ $L^2(\Omega, \mathcal{F}_X, \mu)$ $\mathcal{F}_X$ $\sigma$ $\mathcal{F}$ $X$ $L^2$ $E(X|Y)$ , por construcción. (Esto en realidad caracteriza a , si uno inspecciona la prueba de existencia). $E(X|Y)$

Miguel
fuente

Esta es una hermosa respuesta.

jII

0

Con respecto a su última pregunta, la expectativa puede ser wrt (el error incondicional) o wrt (el error condicional en cada valor ). Felizmente, minimizar el error condicional en cada valor también minimiza el error incondicional, por lo que esta no es una distinción crucial. $p(x,y)$ $p(y\mid x)$ $X = x$ $X = x$

Ulisses Braga-Neto
fuente

Problema con la prueba de expectativa condicional como mejor predictor

Respuestas: