Error de predicción esperado - derivación

20

Estoy luchando por comprender la derivación del error de predicción esperado a continuación (ESL), especialmente en la derivación de 2.11 y 2.12 (condicionamiento, el paso hacia el mínimo puntual). Cualquier puntero o enlace muy apreciado.

A continuación estoy informando el extracto de ESL pág. 18. Las dos primeras ecuaciones son, en orden, las ecuaciones 2.11 y 2.12.


Supongamos que denota un vector de entrada aleatorio con valor real, e una variable de salida aleatoria con valor real, con distribución conjunta . Buscamos una función para predecir valores dados de la entrada . Esta teoría requiere una función de pérdida para penalizar los errores en la predicción, y con mucho, el más común y conveniente es la pérdida de error al cuadrado : . Esto nos lleva a un criterio para elegir ,XRpYRPr(X,Y)f(X)YX L(Y,f(X))L(Y,f(X))=(Yf(X))2f

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

El error de predicción esperado (al cuadrado). Al condicionar en X , podemos escribir EPE como

EPE(f)=EXEY|X([Yf(X)]2|X)

y vemos que es suficiente minimizar EPE puntualmente:

f(x)=argmincEY|X([Yc]2|X)

La solucion es

f(x)=E(Y|X=x)

La expectativa condicional, también conocida como la función de regresión .

usuario1885116
fuente
Al intercambiar e en la primera ecuación del artículo de Wikipedia sobre la Ley de Expectativa Total, se obtiene la equivalencia de (2.9) y (2.11). Lea ese artículo para obtener pruebas. (2.12) es inmediato, en el entendimiento de que se debe elegir para minimizar EPE. Y fXYf
whuber
3
Nota al
margen
2
Para aquellos que también leen este libro, revisen estas notas completas de Weathermax y Epstein
Dodgie
@Dodgie Ese enlace ha muerto: (
Matthew Drury
2
Afortunadamente @MatthewDrury un google de "estadísticas" WeatherMax y Epstein volvió un enlace como el primer resultado;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/...
Dodgie

Respuestas:

16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)
usuario48002
fuente
3
Entiendo lo que escribiste, pero ¿crees que si el OP estaba confundido por la derivación que se muestra en la pregunta, él / ella entenderá tu respuesta? Por supuesto, ya entendí la derivación que se muestra en la pregunta.
Mark L. Stone
Llegué de google con la misma pregunta y realmente encuentro que esta derivación es exactamente lo que necesitaba.
Punto y coma y cinta adhesiva
1
@ MarkL.Stone: esta podría ser una pregunta estúpida, pero ¿podría explicar qué se entiende por y cómo se convierte en ? Muchas graciasPr(dx,dy)p(x,y)dxdy
Xavier Bourret Sicotte
1
Lo que se entiende por lo primero es lo segundo. Creo que es más común usar dP (x, y) o dF (x, y). En 1D, a menudo verá que dF (x) significa f (x) dx, donde f (x) es la función de densidad de probabilidad, pero la notación también puede permitir una función de masa de probabilidad discreta (en suma) o incluso una mezcla de densidad continua y masa de probabilidad discreta.
Mark L. Stone
¿No sería más preciso decir (última fórmula) ? EX(EY|X([Yf(X)]2|X=x))
D1X
11

La ecuación (2.11) es una consecuencia de la siguiente pequeña igualdad. Para cualquiera de las dos variables aleatorias y , y cualquier funciónZ1Z2g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

La notación es la expectativa sobre la distribución conjunta . La notación esencialmente dice "integrar sobre la distribución condicional de como si estuviera arreglado".EZ1,Z2EZ1Z2Z1Z2

Es fácil verificar esto en el caso de que y sean variables aleatorias discretas simplemente desenrollando las definiciones involucradasZ1Z2

EZ2(EZ1Z2(g(Z1,Z2)Z2))=EZ2(z1g(z1,Z2)Pr(Z1=z1Z2))=z2(z1g(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))

El caso continuo puede verse informalmente como un límite de este argumento, o verificarse formalmente una vez que todas las medidas teóricas están en su lugar.

Para desenrollar la aplicación, tome , y . Todo se alinea exactamente.Z1=YZ2=Xg(x,y)=(yf(x))2

La afirmación (2.12) nos pide que consideremos minimizar

EXEYX(Yf(X))2

donde somos libres de elegir como lo deseemos. Una vez más, centrándonos en el caso discreto y cayendo a mitad de camino en el desenrollado anterior, vemos que estamos minimizandof

x(y(yf(x))2Pr(Y=yX=x))Pr(X=x)

Todo dentro del paréntesis grande no es negativo, y puede minimizar una suma de cantidades no negativas minimizando los sumandos individualmente. En contexto, esto significa que podemos elegir para minimizarf

y(yf(x))2Pr(Y=yX=x)

individualmente para cada valor discreto de . Este es exactamente el contenido de lo que ESL reclama, solo con una notación más elegante.x

Matthew Drury
fuente
8

Encuentro que algunas partes de este libro se expresan de una manera que es difícil de entender, especialmente para aquellos que no tienen una sólida formación en estadística.

Trataré de hacerlo simple y espero que puedas deshacerte de la confusión.

Reclamación 1 (suavizado) E(X)=E(E(X|Y)),X,Y

Prueba : tenga en cuenta que E (Y) es una constante pero E (Y | X) es una variable aleatoria que depende de X.

E(E(X|Y))=E(X|Y=y)fY(y)dy=xfX|Y(x|y)dxfY(y)dy=xfX|Y(x|y)fY(y)dxdy=xfXY(x,y)dxdy=x(fXY(x,y)dy)dx=xfX(x)dx=E(X)

Reclamación 2 :E(Yf(X))2E(YE(Y|X))2,f

Prueba :

E((Yf(X))2|X)=E(([YE(Y|X)]+[E(Y|X)f(X)])2|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2E((YE(Y|X))(E(Y|X)f(X))|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2(E(Y|X)f(X))E(YE(Y|X))|X)( since E(Y|X)f(X) is constant given X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X) ( use Claim 1 )E((YE(Y|X))2|X)

Teniendo en cuenta que ambos lados de la ecuación anterior dan la Reclamación 2 (QED)

Por lo tanto, la f óptima esf(X)=E(Y|X)

Thanhtang
fuente