¿Puede alguien resumirme con posibles ejemplos, en qué situaciones el aumento de los datos de capacitación mejora el sistema en general? ¿Cuándo detectamos que agregar más datos de entrenamiento podría sobrepasar los datos y no dar una buena precisión en los datos de la prueba?
Esta es una pregunta muy no específica, pero si desea responderla específicamente a una situación particular, hágalo.
Respuestas:
Dicho esto, una situación en la que más datos no ayudan, e incluso pueden dañar, es si sus datos de entrenamiento adicionales son ruidosos o no coinciden con lo que está tratando de predecir. Una vez realicé un experimento en el que conecté diferentes modelos de idiomas [*] en un sistema de reserva de restaurante activado por voz. Varié la cantidad de datos de entrenamiento y su relevancia: en un extremo, tenía una pequeña colección cuidadosamente seleccionada de tablas de reserva de personas, una combinación perfecta para mi aplicación. Por otro lado, tenía un modelo estimado a partir de una gran colección de literatura clásica, un modelo de lenguaje más preciso, pero mucho peor para la aplicación. Para mi sorpresa, el modelo pequeño pero relevante superó ampliamente al modelo grande pero menos relevante.
Una situación sorprendente, llamada doble descenso , también ocurre cuando el tamaño del conjunto de entrenamiento está cerca del número de parámetros del modelo. En estos casos, el riesgo de prueba primero disminuye a medida que el tamaño del conjunto de entrenamiento aumenta, transitoriamente aumenta cuando se añade un bit de datos más formación, y, finalmente, comienza la disminución de nuevo como el conjunto de entrenamiento continúa creciendo. Este fenómeno se informó 25 años en la literatura sobre redes neuronales (ver Opper, 1995), pero también ocurre en redes modernas ( Advani y Saxe, 2017 ). Curiosamente, esto sucede incluso para una regresión lineal, aunque sea un ajuste por SGD ( Nakkiran, 2019) Este fenómeno aún no se comprende totalmente y es en gran medida de interés teórico: ciertamente no lo usaría como una razón para no recopilar más datos (aunque podría jugar con el tamaño del conjunto de entrenamiento si n == p y el rendimiento fuera inesperadamente malo )
fuente
Una nota: al agregar más datos (filas o ejemplos, no columnas o características), sus posibilidades de sobreajustar disminuyen en lugar de aumentar.
El resumen de dos párrafos es así:
Existen algunos criterios simplistas para comparar la calidad de los modelos. Eche un vistazo, por ejemplo, a AIC o BIC .
Ambos muestran que agregar más datos siempre mejora los modelos, mientras que agregar una complejidad de parámetros más allá de lo óptimo, reduce la calidad del modelo.
fuente
El aumento de los datos de entrenamiento siempre agrega información y debería mejorar el ajuste. La dificultad se presenta si luego evalúa el rendimiento del clasificador solo en los datos de entrenamiento que se utilizaron para el ajuste. Esto produce evaluaciones sesgadas de manera optimista y es la razón por la cual se utiliza en su lugar la validación cruzada de omisión o bootstrap.
fuente
Idealmente, una vez que tenga más ejemplos de entrenamiento, tendrá un error de prueba menor (la variación de la disminución del modelo, lo que significa que estamos menos ajustados), pero en teoría, más datos no siempre significa que tendrá un modelo más preciso ya que los modelos de alto sesgo no se beneficiará de más ejemplos de capacitación .
Ver aquí: En Machine Learning, ¿Qué es mejor: más datos o mejores algoritmos?
Alta varianza : un modelo que representa bien el conjunto de entrenamiento, pero con riesgo de sobreajuste a datos de entrenamiento ruidosos o no representativos.
Alto sesgo : un modelo más simple que no tiende a sobreajustar, pero que puede subestimar los datos de entrenamiento, al no capturar regularidades importantes.
fuente
El análisis del espectro ayudará en el análisis de la diversidad de la muestra, de hecho, la información falsa se aprenderá en el modelado, si no se agregan "muestras reales", lo que generalmente se denomina sobreajuste. Por lo general, si la información proporcionada por muestra es menor, se recomienda que se proporcione la muestra más real para garantizar que la información útil se pueda utilizar en las pruebas. ¡Buena suerte!
fuente