Comprender la derivación de equilibrio de sesgo-varianza

20

Estoy leyendo el capítulo de equilibrio de sesgo-varianza de Los elementos del aprendizaje estadístico y tengo dudas en la fórmula de la página 29. Deje que los datos surjan de un modelo tal que donde es aleatorio número con valor esperado y varianza . Supongamos que el valor esperado de error del modelo es donde es la predicción de de nuestro alumno. Según el libro, el error es

Y=f(x)+ϵ
ε = E [ ε ] = 0 E [ ( ε - ε ) 2 ] = E [ ε 2 ] = σ 2 E [ ( Y - f k ( x ) ) 2 ] f k ( x ) x E [ ( Y -ϵϵ^=E[ϵ]=0E[(ϵϵ^)2]=E[ϵ2]=σ2
E[(Yfk(x))2]
fk(x)x
E[(Yfk(x))2]=σ2+Bias(fk)2+Var(fk(x)).

Mi pregunta es ¿por qué el término sesgo no es 0? desarrollando la fórmula del error veo

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)fk(x))ϵ]+σ2

as ϵ es un número aleatorio independiente 2E[(f(x)fk(x))ϵ]=2E[(f(x)fk(x))]E[ϵ]=0

¿Dónde me equivoco?

emanuele
fuente

Respuestas:

20

No está equivocado, pero cometió un error en un paso ya que E[(f(x)fk(x))2]Var(fk(x)) . E[(f(x)fk(x))2] es MSE(fk(x))=Var(fk(x))+Bias2(fk(x)) .

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)-Fk(X))ϵ]+mi[ϵ2]=mi[(F(X)-mi(Fk(X))+mi(Fk(X))-Fk(X))2]+2mi[(F(X)-Fk(X))ϵ]+σ2=Vunr(Fk(X))+Parcialidad2(Fk(X))+σ2.

Nota: mi[(Fk(X)-mi(Fk(X)))(F(X)-mi(Fk(X))]=mi[Fk(X)-mi(Fk(X))](F(X)-mi(Fk(X)))=0.

Greenparker
fuente
En caso de resultados binarios, ¿hay una prueba equivalente con entropía cruzada como medida de error?
emanuele
1
No funciona tan bien con una respuesta binaria. Ver Ex 7.2 en la segunda edición de "Los elementos del aprendizaje estadístico".
Matthew Drury
3
¿podría explicar cómo se pasa desde a ? V a r ( f k( x ) ) + Sesgo 2 ( f k ( xmi[(F(X)-mi(Fk(X))+mi(Fk(X))-Fk(X))2]+2mi[(F(X)-Fk(X))ϵ]+σ2Var(fk(x))+Bias2(fk(x))+σ2
Antoine
16

Unos pocos pasos más del sesgo: descomposición de la varianza

De hecho, la derivación completa rara vez se da en los libros de texto, ya que implica una gran cantidad de álgebra poco inspiradora. Aquí hay una derivación más completa usando la notación del libro "Elementos de aprendizaje estadístico" en la página 223


Si suponemos que y y entonces podemos derivar la expresión para el error de predicción esperado de un ajuste de regresión en una entrada con pérdida de error al cuadradoY=f(X)+ϵE[ϵ]=0Var(ϵ)=σϵ2f ( X ) X = x 0f^(X)X=x0

Err(x0)=E[(Yf^(x0))2|X=x0]

Para simplificar la notación dejar que , y el recuerdo de que yf^(x0)=f^f(x0)=fE[f]=fE[Y]=f

E[(Yf^)2]=E[(Yf+ff^)2]=E[(yf)2]+E[(ff^)2]+2E[(ff^)(yf)]=E[(f+ϵf)2]+E[(ff^)2]+2E[fYf2f^Y+f^f]=E[ϵ2]+E[(ff^)2]+2(f2f2fE[f^]+fE[f^])=σϵ2+E[(ff^)2]+0

Para el término podemos usar un truco similar al anterior, sumando y restando para obtenermi[(F-F^)2]mi[F^]

mi[(F-F^)2]=mi[(F+mi[F^]-mi[F^]-F^)2]=mi[F-mi[F^]]2+mi[F^-mi[F^]]2=[F-mi[F^]]2+mi[F^-mi[F^]]2=siyouns2[F^]+Vunr[F^]

Poniendo todo junto

mi[(Y-F^)2]=σϵ2+siyouns2[F^]+Vunr[F^]


Algunos comentarios sobre por quémi[F^Y]=Fmi[F^]

Tomado de Alecos Papadopoulos aquí

Recuerde que es el predictor que hemos construido en base a los puntos de datos para que podamos escribir para recordar eso.F^metro{(X(1),y(1)),...,(X(metro),y(metro))}F^=F^metro

Por otro lado, es la predicción que estamos haciendo sobre un nuevo punto de datos usando el modelo construido en los puntos de datos anteriores. Entonces, el error cuadrático medio se puede escribir comoY(X(metro+1),y(metro+1))metro

mi[F^metro(X(metro+1))-y(metro+1)]2

Expandiendo la ecuación de la sección anterior

mi[F^metroY]=mi[F^metro(F+ϵ)]=mi[F^metroF+F^metroϵ]=mi[F^metroF]+mi[F^metroϵ]

La última parte de la ecuación se puede ver como

mi[F^metro(X(metro+1))ϵ(metro+1)]=0 0

Dado que hacemos los siguientes supuestos sobre el punto :X(metro+1)

  • Fue no utilizado en la construcción deF^metro
  • Es independiente de todas las demás observaciones{(X(1),y(1)),...,(X(metro),y(metro))}
  • Es independiente deϵ(metro+1)

Otras fuentes con derivaciones completas

Xavier Bourret Sicotte
fuente
1
¿Por qué ? No creo que y son independientes, ya que se construye usando esencialmente . mi[F^Y]=Fmi[F^]YF^F^Y
Felipe Pérez
55
Pero la pregunta es esencialmente la misma, ¿por qué ? La aleatoriedad de proviene del error así que no veo por qué y serían independientes y, por lo tanto, . mi[F^ϵ]=0 0F^ϵF^ϵmi(F^ϵ)=0 0
Felipe Pérez
Desde su precisión, parece que la perspectiva dentro de la muestra frente a fuera de la muestra es crucial. ¿Es tan? Si trabajamos solo en la muestra y, entonces, vemos como residual, ¿desaparecerá la compensación de la variación de sesgo? ϵ
Markowitz
1
@ FelipePérez, por lo que entiendo, la aleatoriedad de proviene de la división de la prueba del tren (cuyos puntos terminaron en el conjunto de entrenamiento y dieron como el predictor entrenado). En otras palabras, la varianza de proviene de todos los subconjuntos posibles de un conjunto de datos fijo dado que podemos tomar como conjunto de entrenamiento. Debido a que el conjunto de datos es fijo, no hay aleatoriedad proveniente de y, por lo tanto, y son independientes. F^F^F^ϵF^ϵ
Alberto Santini