Suponga que un modelo tiene una precisión del 100% en los datos de entrenamiento, pero una precisión del 70% en los datos de la prueba. ¿Es cierto el siguiente argumento sobre este modelo?
Es obvio que este es un modelo sobreajustado. La precisión de la prueba se puede mejorar reduciendo el sobreajuste. Pero, este modelo aún puede ser un modelo útil, ya que tiene una precisión aceptable para los datos de prueba.
model
accuracy
overfitting
Hossein
fuente
fuente
Respuestas:
Creo que el argumento es correcto. Si el 70% es aceptable en la aplicación particular, entonces el modelo es útil aunque esté sobreajustado (más generalmente, independientemente de si está sobreajustado o no).
Si bien equilibrar el sobreajuste con la falta de adecuación se refiere a la optimización (en busca de una solución óptima), tener un rendimiento satisfactorio se trata de suficiencia (¿el modelo funciona lo suficientemente bien para la tarea?). Un modelo puede ser suficientemente bueno sin ser óptimo.
Editar: después de los comentarios de Firebug y Matthew Drury bajo el OP, agregaré eso para juzgar si el modelo está sobreajustado sin saber que el rendimiento de la validación puede ser problemático. Firebug sugiere comparar la validación con el rendimiento de la prueba para medir la cantidad de sobreajuste. Sin embargo, cuando el modelo ofrece una precisión del 100% en el conjunto de entrenamiento sin ofrecer una precisión del 100% en el conjunto de prueba, es un indicador de posible sobreajuste (especialmente en el caso de regresión pero no necesariamente en la clasificación).
fuente
set.seed(100)
una ilustración como el fenómeno descrito aquí yset.seed(15)
lo contrario. Quizás sea mejor decir "un indicador de posible sobreajuste"En mi proyecto anterior con detección de fraude de tarjeta de crédito, intencionalmente queremos ajustar los datos / codificados para recordar casos de fraude. (Tenga en cuenta que el sobreajuste de una clase no es exactamente el problema general de sobreajuste del que habló OP). Dicho sistema tiene falsos positivos relativamente bajos y satisface nuestras necesidades.
Entonces, diría que el modelo sobreajustado puede ser útil en algunos casos.
fuente
Quizás: cuidado. Cuando dice que el 70% de precisión (como quiera que lo mida) es lo suficientemente bueno para usted, parece que está asumiendo que los errores se distribuyen de manera aleatoria o uniforme.
Pero una de las formas de ver el sobreajuste es que ocurre cuando una técnica modelo permite (y su proceso de entrenamiento fomenta) prestar demasiada atención a las peculiaridades en el conjunto de entrenamiento. Los sujetos en la población general que comparten estas peculiaridades pueden tener resultados altamente desequilibrados.
Entonces, quizás termines con un modelo que dice que todos los perros rojos tienen cáncer, debido a esa peculiaridad particular en tus datos de entrenamiento. O que las personas casadas de entre 24 y 26 años tienen casi la garantía de presentar reclamos de seguro fraudulentos. Su precisión del 70% deja mucho espacio para que los bolsillos de los sujetos estén 100% equivocados porque su modelo está sobreajustado.
(No estar sobreajustado no es una garantía de que no tendrás focos de predicciones erróneas. De hecho, un modelo mal ajustado tendrá franjas de malas predicciones, pero con el sobreajuste sabes que estás magnificando el efecto de las peculiaridades en tus datos de entrenamiento .)
fuente
No, pueden ser útiles, pero depende de su propósito. Se me ocurren varias cosas:
Clasificación sensible al costo: si su función de evaluación sobrepondera TPR y subestima FPR, utilizamos con . (como la respuesta de @ hxd1011 en antifraude)Fβ β≫1
Tal clasificador puede ser realmente útil en un conjunto . Podríamos tener un clasificador con pesos normales, uno que sobreponde TPR, uno que sobreponde FNR. Entonces, incluso una simple regla de tres votaciones, o promedios, dará un AUC mejor que cualquier mejor clasificador. Si cada modelo usa diferentes hiperparámetros (o conjuntos de entrenamiento submuestreados, o arquitecturas de modelos), eso le da al conjunto cierta inmunidad contra el sobreajuste.
Del mismo modo, para la puntuación de crédito, antispam o antifraude en tiempo real , está bien y es conveniente utilizar una jerarquía de clasificadores. Los clasificadores de nivel 1 deben evaluar realmente rápido (ms) y está bien tener un FPR alto ; cualquier error que cometan será detectado por clasificadores de alto nivel más precisos, con más funciones, más lentos o, en última instancia, revisores humanos. Ejemplo obvio: evite que los titulares de noticias falsas de las adquisiciones de cuentas de Twitter, como el "ataque con bomba de la Casa Blanca en 2013 mata a tres", afecten $ miles de millones de transacciones en el plazo de más de una publicación. Está bien que el clasificador de nivel 1 marque eso como positivo para spam; permitamos que tome un poco de tiempo (automáticamente) determinar la verdad / falsedad de los informes de noticias sensacionales pero no verificados.
fuente
No estoy negando que un modelo sobreajustado aún podría ser útil. Pero solo tenga en cuenta que este 70% podría ser una información engañosa. Lo que necesita para juzgar si un modelo es útil o no es el error fuera de la muestra , no el error de prueba (el error fuera de la muestra no se conoce, por lo que tenemos que estimarlo usando un conjunto de prueba oculto ), y ese 70% es apenas la buena aproximación.
Para asegurarnos de que estamos en la misma página en la terminología después del comentario de @RichardHardy, definamos el error de prueba como el error obtenido al aplicar el modelo en el conjunto de pruebas ciegas. Y el error fuera de la muestra es el error al aplicar el modelo a toda la población.
La aproximación del error fuera de la muestra depende de dos cosas: el modelo en sí y los datos.
Un modelo "óptimo" rinde a una precisión (de prueba) que apenas depende de los datos, en este caso, sería una buena aproximación. "Independientemente" de los datos, el error de predicción sería estable.
Pero, la precisión de un modelo sobreajustado depende en gran medida de los datos (como mencionó 100% en el conjunto de entrenamiento y 70% en el otro conjunto). Por lo tanto, puede suceder que al aplicar a otro conjunto de datos, la precisión podría ser inferior al 70% (o superior), y podríamos tener malas sorpresas. En otras palabras, ese 70% te dice lo que crees que es, pero no es así.
fuente