¿Qué impacto tiene el aumento de los datos de entrenamiento en la precisión general del sistema?

16

¿Puede alguien resumirme con posibles ejemplos, en qué situaciones el aumento de los datos de capacitación mejora el sistema en general? ¿Cuándo detectamos que agregar más datos de entrenamiento podría sobrepasar los datos y no dar una buena precisión en los datos de la prueba?

Esta es una pregunta muy no específica, pero si desea responderla específicamente a una situación particular, hágalo.

madCode
fuente
Solo me pregunto: ¿se trata de si una división 50-50 en tren / prueba es mejor que decir 75-25?
probabilidadislogica

Respuestas:

21

norte=4 4

Dicho esto, una situación en la que más datos no ayudan, e incluso pueden dañar, es si sus datos de entrenamiento adicionales son ruidosos o no coinciden con lo que está tratando de predecir. Una vez realicé un experimento en el que conecté diferentes modelos de idiomas [*] en un sistema de reserva de restaurante activado por voz. Varié la cantidad de datos de entrenamiento y su relevancia: en un extremo, tenía una pequeña colección cuidadosamente seleccionada de tablas de reserva de personas, una combinación perfecta para mi aplicación. Por otro lado, tenía un modelo estimado a partir de una gran colección de literatura clásica, un modelo de lenguaje más preciso, pero mucho peor para la aplicación. Para mi sorpresa, el modelo pequeño pero relevante superó ampliamente al modelo grande pero menos relevante.


Una situación sorprendente, llamada doble descenso , también ocurre cuando el tamaño del conjunto de entrenamiento está cerca del número de parámetros del modelo. En estos casos, el riesgo de prueba primero disminuye a medida que el tamaño del conjunto de entrenamiento aumenta, transitoriamente aumenta cuando se añade un bit de datos más formación, y, finalmente, comienza la disminución de nuevo como el conjunto de entrenamiento continúa creciendo. Este fenómeno se informó 25 años en la literatura sobre redes neuronales (ver Opper, 1995), pero también ocurre en redes modernas ( Advani y Saxe, 2017 ). Curiosamente, esto sucede incluso para una regresión lineal, aunque sea un ajuste por SGD ( Nakkiran, 2019) Este fenómeno aún no se comprende totalmente y es en gran medida de interés teórico: ciertamente no lo usaría como una razón para no recopilar más datos (aunque podría jugar con el tamaño del conjunto de entrenamiento si n == p y el rendimiento fuera inesperadamente malo )


PAG(wnorte='rápido', wnorte+1='marrón', wnorte+2='zorro')


Matt Krause
fuente
12

Una nota: al agregar más datos (filas o ejemplos, no columnas o características), sus posibilidades de sobreajustar disminuyen en lugar de aumentar.

El resumen de dos párrafos es así:

  • Agregar más ejemplos, agrega diversidad. Disminuye el error de generalización porque su modelo se vuelve más general en virtud de estar capacitado en más ejemplos.
  • Agregar más características de entrada o columnas (a un número fijo de ejemplos) puede aumentar el sobreajuste porque más características pueden ser irrelevantes o redundantes y hay más oportunidades de complicar el modelo para ajustar los ejemplos disponibles.

Existen algunos criterios simplistas para comparar la calidad de los modelos. Eche un vistazo, por ejemplo, a AIC o BIC .

Ambos muestran que agregar más datos siempre mejora los modelos, mientras que agregar una complejidad de parámetros más allá de lo óptimo, reduce la calidad del modelo.

arielf
fuente
1

El aumento de los datos de entrenamiento siempre agrega información y debería mejorar el ajuste. La dificultad se presenta si luego evalúa el rendimiento del clasificador solo en los datos de entrenamiento que se utilizaron para el ajuste. Esto produce evaluaciones sesgadas de manera optimista y es la razón por la cual se utiliza en su lugar la validación cruzada de omisión o bootstrap.

Michael R. Chernick
fuente
1

Idealmente, una vez que tenga más ejemplos de entrenamiento, tendrá un error de prueba menor (la variación de la disminución del modelo, lo que significa que estamos menos ajustados), pero en teoría, más datos no siempre significa que tendrá un modelo más preciso ya que los modelos de alto sesgo no se beneficiará de más ejemplos de capacitación .

Ver aquí: En Machine Learning, ¿Qué es mejor: más datos o mejores algoritmos?

Alta varianza : un modelo que representa bien el conjunto de entrenamiento, pero con riesgo de sobreajuste a datos de entrenamiento ruidosos o no representativos.

Alto sesgo : un modelo más simple que no tiende a sobreajustar, pero que puede subestimar los datos de entrenamiento, al no capturar regularidades importantes.

Serenidad
fuente
-1

El análisis del espectro ayudará en el análisis de la diversidad de la muestra, de hecho, la información falsa se aprenderá en el modelado, si no se agregan "muestras reales", lo que generalmente se denomina sobreajuste. Por lo general, si la información proporcionada por muestra es menor, se recomienda que se proporcione la muestra más real para garantizar que la información útil se pueda utilizar en las pruebas. ¡Buena suerte!

usuario162580
fuente
33
Es difícil dar sentido a esta respuesta. ¿Tal vez fue traducido automáticamente de algún otro idioma? ¿Habría alguna manera de revisarlo y editarlo para que transmita las ideas que desea compartir con nosotros?
whuber
No entiendo cuál es tu respuesta.
user162580
33
Parece que tenemos un problema de idioma: las palabras que publicaste no tienen sentido en inglés. ¿Puedes cambiarlos para que tengan sentido?
whuber