Sesgo de optimismo: estimaciones del error de predicción

9

El libro Elementos del aprendizaje estadístico (disponible en PDF en línea) analiza el sesgo optimista (7.21, página 229). Establece que el sesgo de optimismo es la diferencia entre el error de entrenamiento y el error en la muestra (error observado si tomamos muestras de nuevos valores de resultado en cada uno de los puntos de entrenamiento originales) (por debajo).

ingrese la descripción de la imagen aquí

A continuación, establece que este sesgo de optimismo ( ω ) es igual a la covarianza de nuestros valores y estimados y los valores y reales (fórmula a continuación). Tengo problemas para entender por qué esta fórmula indica el sesgo de optimismo; ingenuamente, habría pensado que una fuerte covarianza entre real y y predijo y se limita a describir la precisión - No optimismo. Avíseme si alguien puede ayudar con la derivación de la fórmula o compartir la intuición.

ingrese la descripción de la imagen aquí

usuario1885116
fuente
Muy útil, gracias! Creo que una de las ecuaciones tiene un error tipográfico menor y debería ser: =1Ni=1N(Ey[yi2]+Ey[y^i2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

Respuestas:

8

Comencemos con la intuición.

yiy^iyi

y^iyiR2=1df(y^)=n

yyi=yi^=y¯i

Consulte este bonito folleto de Ryan Tibshirani para obtener más detalles sobre esta intuición.


Ahora una prueba similar a la otra respuesta, pero con un poco más de explicación.

Recuerde que, por definición, el optimismo promedio es:

ω=Ey(Errinerr¯)

=Ey(1Ni=1NEY0[L(Yi0,f^(xi)|T)]1Ni=1NL(yi,f^(xi)))

Ahora use una función de pérdida cuadrática y expanda los términos al cuadrado:

=Ey(1Ni=1NEY0[(Yi0y^i)2]1Ni=1N(yiy^i)2))

=1Ni=1N(EyEY0[(Yi0)2]+EyEY0[y^i2]2EyEY0[Yi0y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

EyEY0[(Yi0)2]=Ey[yi2]

=1Ni=1N(Ey[yi2]+Ey[yi^2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2E[yiy^i])

=2Ni=1N(E[yiy^i]Ey[yi]Ey[y^i])

Cov(x,w)=E[xw]E[x]E[w]

=2Ni=1NCov(yi,y^i)
cd98
fuente
55
Debo señalar que su nombre se deletrea "Ryan Tibshirani" Rob Tibshirani
robert tibshirani
2
Bienvenido a nuestro sitio, Rob. ¡Es un privilegio tenerte aquí, aunque solo sea para corregir un error! Si ve más, infórmenos: y, por supuesto, nos complacería recibir cualquier respuesta que usted (o sus estudiantes) puedan publicar. Su trabajo está ampliamente referenciado en este sitio, particularmente ESL e Introducción a Bootstrap.
whuber
EyEY0[(Yi0)2]=Ey[yi2]2EyEY0[Yi0y^i]=2Ey[EY0[Yi0]EY0[y^i]]=2Ey[yi]Ey[y^i]
7

f^(xi)=y^i

ω=Ey[op]=Ey[Errinerr¯]=Ey[Errin]Ey[err¯]=Ey[1Ni=1NEY0[L(Yi0,f^(xi))]Ey[1Ni=1NL(yi,f^(xi))]=1Ni=1NEyEY0[(Yi0y^i)2]Ey[(yiy^i)2]=1Ni=1NEyEY0[(Yi0)2]+EyEY0[y^i2]2EyEY0[Yi0y^i]Ey[yi2]Ey[y^i2]+2Ey[yiy^i]=1Ni=1NEy[yi2]+Ey[y^i2]2Ey[yi]Ey[y^i]Ey[yi2]Ey[y^i2]+2Ey[yiy^i]=2Ni=1NEy[yiy^i]Ey[yi]Ey[y^i]=2Ni=1NEy[yiy^iyiEy[y^i]Ey[yi]y^i+Ey[yi]Ey[y^i]]=2Ni=1NEy[(y^iEy[y^i])([yiEy[yi])]=2Ni=1Ncov(y^i,yi)
Maciej Lazarewicz
fuente
1
E[xw]E[x]E[w]=Cov(x,w)