Estoy tratando de entender el equilibrio entre sesgo y varianza, la relación entre el sesgo del estimador y el sesgo del modelo, y la relación entre la varianza del estimador y la varianza del modelo.
Llegué a estas conclusiones:
- Tendemos a sobreajustar los datos cuando descuidamos el sesgo del estimador, es decir, cuando solo apuntamos a minimizar el sesgo del modelo descuidando la varianza del modelo (en otras palabras, solo apuntamos a minimizar la varianza del estimador sin considerar el sesgo del estimador también)
- Viceversa, tendemos a ajustar los datos cuando descuidamos la varianza del estimador, es decir, cuando solo apuntamos a minimizar la varianza del modelo descuidando el sesgo del modelo (en otras palabras, solo apuntamos a minimizar el sesgo del estimador sin considerar la varianza del estimador también).
¿Son correctas mis conclusiones?
Respuestas:
Especie de. Como se indicó, usted atribuye la intención al científico de minimizar el sesgo o la varianza. En la práctica, no puede observar explícitamente el sesgo o la varianza de su modelo (si pudiera, entonces conocería la señal verdadera, en cuyo caso no necesitaría un modelo). En general, solo puede observar la tasa de error de su modelo en un conjunto de datos específico, y busca estimar la tasa de error fuera de la muestra utilizando varias técnicas creativas.
Ahora se hace saber que, al menos en teoría, esta tasa de error se puede descomponer en términos sesgo y la varianza, pero no se puede observar directamente este equilibrio en cualquier situación concreta específica. Así que reafirmaría sus observaciones ligeramente como:
En general, no hay una forma real de saberlo con certeza, ya que nunca se puede observar realmente el sesgo del modelo. Sin embargo, hay varios patrones de comportamiento que son indicativos de estar en una situación u otra:
Estos son los patrones que se manifiestan en las famosas parcelas de tasas de error por complejidad del modelo, este es de The Elements of Statistical Learning:
A menudo, estas parcelas se superponen con una curva de sesgo y varianza. Tomé este de esta bonita exposición :
Pero es muy importante darse cuenta de que en realidad nunca se ven estas curvas adicionales en una situación realista.
fuente
Ilustrando el sesgo: compensación de varianza utilizando un ejemplo de juguete
Como señala @Matthew Drury, en situaciones realistas no se puede ver el último gráfico, pero el siguiente ejemplo de juguete puede proporcionar interpretación visual e intuición a quienes lo encuentran útil.
Conjunto de datos y supuestos
Adaptación de varios modelos de polinomios.
Intuitivamente, esperaría que una curva de línea recta funcione mal ya que el conjunto de datos es claramente no lineal. Del mismo modo, ajustar un polinomio de orden muy alto puede ser excesivo. Esta intuición se refleja en el siguiente gráfico que muestra los diversos modelos y su correspondiente error cuadrático medio para los datos del tren y la prueba.
El gráfico anterior funciona para un solo tren / división de prueba, pero ¿cómo sabemos si se generaliza?
Estimación del tren esperado y prueba MSE
Aquí tenemos muchas opciones, pero un enfoque es dividir aleatoriamente los datos entre tren / prueba: ajustar el modelo en la división dada y repetir este experimento muchas veces. El MSE resultante se puede trazar y el promedio es una estimación del error esperado.
Es interesante ver que el MSE de prueba fluctúa enormemente para diferentes divisiones de datos de tren / prueba. Pero tomar el promedio en un número suficientemente grande de experimentos nos da una mayor confianza.
Sesgo - Descomposición de varianza
Como se explica aquí, el MSE se puede dividir en 3 componentes principales:
Donde en nuestra caja de juguetes:
Dando la siguiente relación
Nota: el gráfico anterior utiliza los datos de entrenamiento para ajustarse al modelo y luego calcula el MSE en train + test .
fuente