Overfitting / Underfitting with Data set size

11

En el siguiente gráfico,

  • eje x => Tamaño del conjunto de datos
  • eje y => Puntuación de validación cruzada

ingrese la descripción de la imagen aquí

  • La línea roja es para datos de entrenamiento

  • La línea verde es para probar datos

En un tutorial al que me refiero, el autor dice que el punto donde se superponen la línea roja y la línea verde significa,

Es poco probable que recopilar más datos aumente el rendimiento de la generalización y estamos en una región en la que es probable que no ajustemos los datos. Por lo tanto, tiene sentido probar con un modelo con más capacidad

No puedo entender el significado de la frase en negrita y cómo sucede.

Agradezco cualquier ayuda.

tharindu_DG
fuente
¿Qué son las líneas rojas y verdes?
Kasra Manshaei
1
@KasraManshaei: He actualizado la pregunta.
tharindu_DG
1
Si es posible, agregue el enlace al tutorial. Nos ayudaría a comprender mejor la respuesta y el contexto :)
Dawny33
@ Dawny33: Supongo que es un video tutorial y subirlo violaría los problemas de derechos de autor. :)
tharindu_DG

Respuestas:

6

Por lo tanto, la adaptación insuficiente significa que aún tiene capacidad para mejorar su aprendizaje, mientras que la adaptación excesiva significa que ha utilizado una capacidad más de la necesaria para el aprendizaje.

El área verde es donde aumenta el error de prueba, es decir, debe continuar proporcionando capacidad (ya sea puntos de datos o complejidad del modelo) para obtener mejores resultados. Más línea verde va, más plana se vuelve, es decir, está llegando al punto en que la capacidad proporcionada (que son datos) es suficiente y mejor para intentar proporcionar el otro tipo de capacidad que es la complejidad del modelo.

Si no mejora su puntaje de prueba o incluso lo reduce, eso significa que la combinación de Complejidad de datos fue de alguna manera óptima y puede dejar de entrenar.

Kasra Manshaei
fuente
Gracias por la respuesta. Tengo pocas ambigüedades. - Al final del gráfico, la línea verde y la línea roja convergieron. ¿No significa que tenemos suficientes datos para nuestro modelo? - ¿Es posible obtener una mejor precisión del conjunto de prueba que el conjunto de entrenamiento? - Digamos que tenemos un mejor modelo y cómo debería ser ese gráfico.
tharindu_DG
1
"¿No significa que tenemos suficientes datos para nuestro modelo?" Eso es exactamente lo que escribí. Sí, tiene suficientes datos, por lo que si desea mejorar, debe intentar una mayor complejidad. Los datos son suficientes. "¿Es posible obtener una mejor precisión del conjunto de prueba que del conjunto de entrenamiento?" Nunca vi tal cosa. Eso podría suceder en un solo experimento, pero no en general. Esta pregunta se puede traducir a "¿Puedo saber más de lo que sé?" y la respuesta es "¡Por supuesto que no!"
Kasra Manshaei
1
"Digamos que tenemos un mejor modelo y cómo debería ser ese gráfico". Asumo (intenta y avísame si tengo razón :)) que tanto el entrenamiento como la prueba mejoran o no. Es posible que el entrenamiento mejore y la prueba se caiga, pero no al revés, y también es posible que ambos mejoren por un tiempo y luego la prueba se caiga, lo que se llama sobreajuste. Deberías dejar de entrenar en el punto en que la línea de prueba comienza a caer
Kasra Manshaei el
5

Si bien Kasra Manshaei da una buena respuesta general (+1), me gustaría dar un ejemplo fácil de entender.

f:[0,1]Runderfit .

Así que vamos al revés: digamos que tiene 1000 puntos de datos. Conociendo un poco de matemática, eliges un polinomio de grado 999. Ahora puedes ajustar perfectamente los datos de entrenamiento. Sin embargo, sus datos podrían ajustarse a los datos demasiado perfectamente. Por ejemplo, ver (de mi blog )

ingrese la descripción de la imagen aquí

En este caso, tiene otros modelos que también se ajustan perfectamente a los datos. Obviamente, el modelo azul parece poco natural entre los puntos de datos. Es posible que el modelo en sí no pueda capturar bien el tipo de distribución, por lo que restringir el modelo a algo más simple podría ayudarlo. Esto puede ser un ejemplo de sobreajuste .

Martin Thoma
fuente
1
Muy bien @moose! (+1) para comprender la explicación
Kasra Manshaei
0

En su caso, tiene una brecha muy pequeña (o nula) entre el tren y las curvas de prueba que indica que el modelo tiene un alto sesgo / falta de ajuste, solución: necesita elegir un modelo más complejo; - en aras de la finalización, es necesario agregar un caso opuesto cuando la brecha entre el tren y las curvas de prueba es muy grande que indica una alta varianza / sobreajuste, soluciones: a) continuar aumentando el tamaño del conjunto de datos; b) elegir un modelo menos complejo, c) hacer regularización.

Danylo Zherebetskyy
fuente
0

Puede hacer cualquiera / todo lo siguiente:

1) cambie las características que está introduciendo en el modelo

2) elige un modelo diferente para trabajar

3) cargue más datos en el modelo (puede que no sea una opción para usted, pero normalmente esta es una opción)

CENIZA
fuente