Término de varianza en descomposición sesgo-varianza de regresión lineal

9

En 'Los elementos del aprendizaje estadístico', la expresión para la descomposición de la variación de sesgo del modelo lineal se da como donde es la función objetivo real, es la varianza del error aleatorio en el modelo y es el estimador lineal de .f ( x 0 ) σ 2 ε y = f ( x ) + ε

Err(x0)=σϵ2+E[f(x0)Ef^(x0)]2+||h(x0)||2σϵ2,
f(x0)σϵ2y=f(x)+ϵf^(x)f(x)

El término de varianza me preocupa aquí porque la ecuación implica que la varianza sería cero si los objetivos no ruido, es decir,Pero no tiene sentido para mí porque, incluso con ruido cero, todavía puedo obtener diferentes estimadores para diferentes conjuntos de entrenamiento, lo que implica que la varianza no es cero.σϵ2=0.f^(x0)

Por ejemplo, suponga que la función objetivo es cuadrática y los datos de entrenamiento contienen dos puntos muestreados al azar de esta cuadrática; claramente, obtendré un ajuste lineal diferente cada vez que muestree dos puntos al azar del objetivo cuadrático. Entonces, ¿cómo puede la varianza ser cero?f(x0)

¿Alguien puede ayudarme a descubrir qué está mal en mi comprensión de la descomposición de la variación de sesgo?

Abhinav Gupta
fuente

Respuestas:

6

Siempre hay una sutileza al acecho en los tratamientos de sesgo y varianza, y es importante prestarle mucha atención al estudiar. Si vuelve a leer las primeras palabras de ESL en una sección de ese capítulo, los autores deben darle un poco de respeto.

Las discusiones sobre la estimación de la tasa de error pueden ser confusas, porque tenemos que dejar en claro qué cantidades son fijas y cuáles son aleatorias.

La sutileza es lo que es fijo y lo que es aleatorio .

En los tratamientos tradicionales de regresión lineal, los datos se tratan como fijos y conocidos. Si sigue los argumentos en ESL, encontrará que los autores también están haciendo esta suposición. Bajo estos supuestos, el ejemplo no entra en juego, ya que la única fuente restante de aleatoriedad en la de la distribución condicional de dado . Si ayuda, puede reemplazar la notación en su mente con .y X E r r ( x 0 ) E r r ( x 0X )XyXmirr(X0 0)mirr(X0 0X)

Eso no quiere decir que su inquietud sea inválida, es cierto que la selección de datos de entrenamiento realmente introduce aleatoriedad en nuestro algoritmo modelo, y un profesional diligente intentará cuantificar el efecto de esta aleatoriedad en sus resultados. De hecho, puede ver claramente que las prácticas comunes de arranque y validación cruzada incorporan explícitamente estas fuentes de aleatoriedad en sus inferencias.

Para derivar una expresión matemática explícita para el sesgo y la varianza de un modelo lineal en el contexto de un conjunto de datos de entrenamiento aleatorio, sería necesario hacer algunas suposiciones sobre la estructura de la aleatoriedad en los datosEsto implicaría algunas suposiciones sobre la distribución de . Esto se puede hacer, pero no se ha convertido en parte de las exposiciones principales de estas ideas.XXX

Matthew Drury
fuente
Muchas gracias por aclarar el hecho de que los autores han asumido que está arreglado, por lo que la expectativa aquí es wrt no . Pero podemos escribir , lo que significa que si tratamos X al azar obtendremos . Todavía sería cero si es cero. Tenía una duda similar sobre esta ecuación, puedes encontrar mi derivación en esta publicación: stats.stackexchange.com/questions/307110/…XYEl |X(X,Y)mi=miXmiYEl |XVunar(F^(X0 0))=miX[El |El |h(X0 0)El |El |2σϵ2]σϵ2
Abhinav Gupta
Supongo que los autores suponen que el modelo está correctamente especificado, es decir, incluye todos y solo los predictores relevantes con las transformaciones correctas. Sin embargo, tendría que volver al libro en lugar de confiar en mi memoria para confirmar.
Matthew Drury
Si por 'correctamente especificado' quiere decir que la función objetivo es realmente lineal, entonces entiendo que el ruido cero implicaría un sesgo cero. Pero resulta que incluso si la función de destino no es lineal, obtenemos exactamente la misma expresión para la varianza.
Abhinav Gupta
1
Es cierto, pero en ese caso "correctamente especificado" significaría que estaba utilizando regresión lineal para ajustar un modelo que incluye los predictores correctos. Entonces, si la relación verdadera es cuadrática, entonces asumirías que tu modelo incluye los términos cuadráticos.
Matthew Drury el