Brecha de error de entrenamiento vs prueba y su relación con el sobreajuste: conciliar consejos conflictivos

Parece que hay consejos contradictorios sobre cómo manejar la comparación entre el error del tren y la prueba, particularmente cuando hay una brecha entre los dos. Parece que hay dos escuelas de pensamiento que para mí parecen estar en conflicto. Estoy buscando entender cómo conciliar los dos (o entender lo que me falta aquí).

Pensamiento n. ° 1: Una brecha entre el rendimiento del tren y el set de prueba por sí solo no indica un sobreajuste

Primero, (también discutido aquí: ¿cómo pueden las comparaciones de errores de entrenamiento y prueba ser indicativas de sobreajuste? ), La idea de que una diferencia entre el entrenamiento y el conjunto de prueba solo no puede indicar un sobreajuste. Esto concuerda con mi experiencia práctica con, por ejemplo, métodos de árbol de conjunto, donde incluso después de la sintonización de hiperparámetros basada en la validación cruzada, la brecha entre el tren y el error de prueba puede seguir siendo algo grande. Pero (independientemente del tipo de modelo) siempre que su error de validación no vuelva a funcionar, está bien. Al menos, ese es el pensamiento.

Pensamiento n. ° 2: cuando vea una brecha entre el rendimiento del tren y el de la prueba: haga cosas que combatan el sobreajuste

Sin embargo, hay consejos que puede ver, de fuentes muy buenas que sugieren que una brecha entre el tren y el error de prueba es indicativo de sobreajuste. Aquí hay un ejemplo: la charla "Nuts and Bolts of Deep Learning" de Andrew Ng (una charla fantástica) https://www.youtube.com/watch?v=F1ka6a13S9I donde alrededor de la hora 48:00 dibuja un diagrama de flujo que dice "si el error de conjunto de trenes es bajo y el error de conjunto de tren-desarrollador es alto, debe agregar regularización, obtener más datos o cambiar la arquitectura del modelo" ... que son todas las acciones que podría tomar para combatir el sobreajuste.

Lo que me lleva a ... : ¿Me estoy perdiendo algo aquí? ¿Es esta una regla general específica del modelo (en general, los modelos más simples parecen tener menos espacio entre el tren y la prueba)? ¿O simplemente hay dos escuelas de pensamiento diferentes?

cross-validation overfitting ednaMode
fuente

Respuestas:

No creo que este sea un consejo contradictorio. Lo que realmente nos interesa es un buen rendimiento fuera de la muestra, no reducir la brecha entre el entrenamiento y el rendimiento del conjunto de pruebas. Si el rendimiento del conjunto de prueba es representativo del rendimiento fuera de muestra (es decir, el conjunto de prueba es lo suficientemente grande, no contaminado y es una muestra representativa de los datos a los que se aplicará nuestro modelo), siempre que obtengamos un buen rendimiento en el conjunto de prueba no estamos sobreajustados, independientemente de la brecha.

Sin embargo, a menudo, si hay una gran brecha, puede indicar que podríamos obtener un mejor rendimiento del conjunto de pruebas con más regularización / introducción de más sesgos en el modelo. Pero eso no significa que una brecha menor signifique un mejor modelo; es solo que si tenemos una brecha pequeña o nula entre el entrenamiento y el rendimiento del conjunto de pruebas, sabemos que definitivamente no estamos ajustando demasiado, por lo que agregar regularización / introducir más sesgos en el modelo no ayudará.

rinspy
fuente

Punto interesante Resumir "ninguna brecha entre el tren y la prueba" significa definitivamente no tener un sobreajuste, pero "cierta brecha entre el tren y la prueba" puede o no significar un sobreajuste. Si seguimos esa lógica, el diagrama de flujo en la charla de Andrew Ng parece un poco engañoso: no es tan slam dunk como sugiere la diapositiva, es decir, si tiene una brecha, podría intentar la regularización u obtener más datos, pero puede no ayudar. ¿Estarías de acuerdo?

ednaMode

Desde mi experiencia, sí, estaría de acuerdo.

rinspy

"Resumir que no hay brecha entre el tren y la prueba significa que definitivamente no hay sobreajuste" no necesariamente puede sostenerse. Cuando tenga una cantidad infinita de datos, obtendrá una brecha cero entre el tren y la prueba, incluso si el modelo se sobreajusta. Así que creo que para que esa declaración sea válida, necesita algunas suposiciones más.

LKS

@LKS No estoy seguro de lo que quieres decir con sobreajustar aquí. El rendimiento fuera de la muestra siempre será menor o igual que el rendimiento dentro de la muestra, suponiendo que la distribución de datos permanezca constante. Entonces la brecha cero es nuestro mejor escenario. ¿Cómo puede haber un sobreajuste con cero espacio?

rinspy

@rinspy si define el sobreajuste como la brecha numérica entre los datos de entrenamiento y prueba, entonces su declaración es correcta. Pero me gustaría razonar más sobre lo que está haciendo el modelo. Por ejemplo, tenemos una función polinómica de grado 3 y el resultado incluirá un pequeño ruido gaussiano. Si tenemos muestras finitas y utilizamos un polinomio de grado 5 para ajustar, existe un gran rendimiento entre la muestra (predicción) dentro y fuera. Pero si podemos extraer muestras casi infinitas, un modelo que simplemente memorice tendrá un error de entrada / salida cero.

LKS