Sí, hay una definición (un poco más) rigurosa:
Dado un modelo con un conjunto de parámetros, se puede decir que el modelo está sobreajustando los datos si después de un cierto número de pasos de entrenamiento, el error de entrenamiento continúa disminuyendo mientras que el error fuera de la muestra (prueba) comienza a aumentar.
En este ejemplo, el error fuera de la muestra (prueba / validación) primero disminuye en sincronización con el error del tren, luego comienza a aumentar alrededor de la época 90, es decir, cuando comienza el sobreajuste
Otra forma de verlo es en términos de sesgo y varianza. El error de falta de muestra para un modelo se puede descomponer en dos componentes:
- Sesgo: error debido a que el valor esperado del modelo estimado es diferente del valor esperado del modelo verdadero.
- Variación: error debido a que el modelo es sensible a pequeñas fluctuaciones en el conjunto de datos.
X
Y= f( X) + ϵϵmi( ϵ ) = 0Va r ( ϵ ) = σϵ
y el modelo estimado es:
Y^= f^( X)
Xt
mir r ( xt) = σϵ+ B i a s2+ Va r i a n c e
Bias2=E[f(xt)−f^(xt)]2Variance=E[f^(xt)−E[f^(xt)]]2
(Hablando estrictamente, esta descomposición se aplica en el caso de regresión, pero una descomposición similar funciona para cualquier función de pérdida, es decir, también en el caso de clasificación).
Ambas definiciones anteriores están vinculadas a la complejidad del modelo (medido en términos de la cantidad de parámetros en el modelo): cuanto mayor es la complejidad del modelo, más probable es que ocurra un sobreajuste.
Vea el capítulo 7 de Elementos de aprendizaje estadístico para un tratamiento matemático riguroso del tema.
El equilibrio de sesgo-varianza y la varianza (es decir, sobreajuste) aumentan con la complejidad del modelo. Tomado de ESL Capítulo 7