Estoy leyendo el capítulo de equilibrio de sesgo-varianza de Los elementos del aprendizaje estadístico y tengo dudas en la fórmula de la página 29. Deje que los datos surjan de un modelo tal que donde es aleatorio número con valor esperado y varianza . Supongamos que el valor esperado de error del modelo es
donde es la predicción de de nuestro alumno. Según el libro, el error es
Y=f(x)+ϵ
ε = E [ ε ] = 0 E [ ( ε - ε ) 2 ] = E [ ε 2 ] = σ 2 E [ ( Y - f k ( x ) ) 2 ] f k ( x ) x E [ ( Y -ϵϵ^=E[ϵ]=0E[(ϵ−ϵ^)2]=E[ϵ2]=σ2E[(Y−fk(x))2]
Fk(x)xE[(Y−fk(x))2]=σ2+Bias(fk)2+Var(fk(x)).
Mi pregunta es ¿por qué el término sesgo no es 0? desarrollando la fórmula del error veo
E[(Y−fk(x))2]=E[(f(x)+ϵ−fk(x))2]=E[(f(x)−fk(x))2]+2E[(f(x)−fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)−fk(x))ϵ]+σ2
as ϵ es un número aleatorio independiente 2E[(f(x)−fk(x))ϵ]=2E[(f(x)−fk(x))]E[ϵ]=0
¿Dónde me equivoco?
Unos pocos pasos más del sesgo: descomposición de la varianza
De hecho, la derivación completa rara vez se da en los libros de texto, ya que implica una gran cantidad de álgebra poco inspiradora. Aquí hay una derivación más completa usando la notación del libro "Elementos de aprendizaje estadístico" en la página 223
Si suponemos que y y entonces podemos derivar la expresión para el error de predicción esperado de un ajuste de regresión en una entrada con pérdida de error al cuadradoY=f(X)+ϵ E[ϵ]=0 Var(ϵ)=σ2ϵ f ( X ) X = x 0f^(X) X=x0
Para simplificar la notación dejar que , y el recuerdo de que yf^(x0)=f^ f(x0)=f E[f]=f E[Y]=f
Para el término podemos usar un truco similar al anterior, sumando y restando para obtenermi[ ( f- f^)2] mi[ f^]
Poniendo todo junto
Algunos comentarios sobre por quémi[ f^Y] = fmi[ f^]
Tomado de Alecos Papadopoulos aquí
Recuerde que es el predictor que hemos construido en base a los puntos de datos para que podamos escribir para recordar eso.F^ metro { ( x( 1 ), y( 1 )) , . . . , ( x( m ), y( m )) } F^= f^metro
Por otro lado, es la predicción que estamos haciendo sobre un nuevo punto de datos usando el modelo construido en los puntos de datos anteriores. Entonces, el error cuadrático medio se puede escribir comoY ( x( m + 1 ), y( m + 1 )) metro
Expandiendo la ecuación de la sección anterior
La última parte de la ecuación se puede ver como
Dado que hacemos los siguientes supuestos sobre el punto :X( m + 1 )
Otras fuentes con derivaciones completas
fuente