Término de varianza en descomposición sesgo-varianza de regresión lineal

En 'Los elementos del aprendizaje estadístico', la expresión para la descomposición de la variación de sesgo del modelo lineal se da como donde es la función objetivo real, es la varianza del error aleatorio en el modelo y es el estimador lineal de .

E r r (x_{0}) = σ_{ϵ}^{2} + E [f (x_{0}) - E \hat{f} (x_{0})]^{2} + | | h (x_{0}) | |^{2} σ_{ϵ}^{2},

$Err(x_0)=\sigma_\epsilon^2+E[f(x_0)-E\hat f(x_0)]^2+||h(x_0)||^2\sigma_\epsilon^2,$

f (x_{0})

$f(x_0)$

σ_{ϵ}^{2}

$\sigma_\epsilon^2$

y = f (x) + ϵ

$y=f(x)+\epsilon$

\hat{f} (x)

$\hat f(x)$

f (x)

$f(x)$

El término de varianza me preocupa aquí porque la ecuación implica que la varianza sería cero si los objetivos no ruido, es decir,Pero no tiene sentido para mí porque, incluso con ruido cero, todavía puedo obtener diferentes estimadores para diferentes conjuntos de entrenamiento, lo que implica que la varianza no es cero. $\sigma_\epsilon^2=0.$ $\hat f(x_0)$

Por ejemplo, suponga que la función objetivo es cuadrática y los datos de entrenamiento contienen dos puntos muestreados al azar de esta cuadrática; claramente, obtendré un ajuste lineal diferente cada vez que muestree dos puntos al azar del objetivo cuadrático. Entonces, ¿cómo puede la varianza ser cero? $f(x_0)$

¿Alguien puede ayudarme a descubrir qué está mal en mi comprensión de la descomposición de la variación de sesgo?

regression linear-model bias-variance-tradeoff Abhinav Gupta
fuente

Siempre hay una sutileza al acecho en los tratamientos de sesgo y varianza, y es importante prestarle mucha atención al estudiar. Si vuelve a leer las primeras palabras de ESL en una sección de ese capítulo, los autores deben darle un poco de respeto.

Las discusiones sobre la estimación de la tasa de error pueden ser confusas, porque tenemos que dejar en claro qué cantidades son fijas y cuáles son aleatorias.

La sutileza es lo que es fijo y lo que es aleatorio .

En los tratamientos tradicionales de regresión lineal, los datos se tratan como fijos y conocidos. Si sigue los argumentos en ESL, encontrará que los autores también están haciendo esta suposición. Bajo estos supuestos, el ejemplo no entra en juego, ya que la única fuente restante de aleatoriedad en la de la distribución condicional de dado . Si ayuda, puede reemplazar la notación en su mente con . $X$ $y$ $X$ $Err(x_0)$ $Err(x_0 \mid X)$

Eso no quiere decir que su inquietud sea inválida, es cierto que la selección de datos de entrenamiento realmente introduce aleatoriedad en nuestro algoritmo modelo, y un profesional diligente intentará cuantificar el efecto de esta aleatoriedad en sus resultados. De hecho, puede ver claramente que las prácticas comunes de arranque y validación cruzada incorporan explícitamente estas fuentes de aleatoriedad en sus inferencias.

Para derivar una expresión matemática explícita para el sesgo y la varianza de un modelo lineal en el contexto de un conjunto de datos de entrenamiento aleatorio, sería necesario hacer algunas suposiciones sobre la estructura de la aleatoriedad en los datosEsto implicaría algunas suposiciones sobre la distribución de . Esto se puede hacer, pero no se ha convertido en parte de las exposiciones principales de estas ideas. $X$ $X$

Matthew Drury
fuente

Muchas gracias por aclarar el hecho de que los autores han asumido que está arreglado, por lo que la expectativa aquí es wrt no . Pero podemos escribir , lo que significa que si tratamos X al azar obtendremos . Todavía sería cero si es cero. Tenía una duda similar sobre esta ecuación, puedes encontrar mi derivación en esta publicación: stats.stackexchange.com/questions/307110/…

X

$X$

Y | X

$Y|X$

(X, Y)

$(X,Y)$

E = E_{X} E_{Y | X}

$E=E_XE_{Y|X}$

V a r (\hat{f} (x_{0})) = E_{X} [| | h (x_{0}) | |^{2} σ_{ϵ}^{2}]

$Var(\hat f(x_0))=E_X[||h(x_0)||^2\sigma_\epsilon^2]$

σ_{ϵ}^{2}

$\sigma_\epsilon^2$

Abhinav Gupta

Supongo que los autores suponen que el modelo está correctamente especificado, es decir, incluye todos y solo los predictores relevantes con las transformaciones correctas. Sin embargo, tendría que volver al libro en lugar de confiar en mi memoria para confirmar.

Matthew Drury

Si por 'correctamente especificado' quiere decir que la función objetivo es realmente lineal, entonces entiendo que el ruido cero implicaría un sesgo cero. Pero resulta que incluso si la función de destino no es lineal, obtenemos exactamente la misma expresión para la varianza.

Abhinav Gupta

Es cierto, pero en ese caso "correctamente especificado" significaría que estaba utilizando regresión lineal para ajustar un modelo que incluye los predictores correctos. Entonces, si la relación verdadera es cuadrática, entonces asumirías que tu modelo incluye los términos cuadráticos.

Matthew Drury el

Término de varianza en descomposición sesgo-varianza de regresión lineal

Respuestas: