He estado trabajando en aprendizaje automático y bioinformática durante un tiempo, y hoy tuve una conversación con un colega sobre los principales problemas generales de la minería de datos.
Mi colega (que es un experto en aprendizaje automático) dijo que, en su opinión, el aspecto práctico más importante del aprendizaje automático es cómo comprender si ha recopilado suficientes datos para entrenar su modelo de aprendizaje automático .
Esta declaración me sorprendió, porque nunca le había dado tanta importancia a este aspecto ...
Luego busqué más información en Internet, y encontré esta publicación en informes de FastML.com como regla general de que necesita aproximadamente 10 veces más instancias de datos que características .
Dos preguntas:
1 - ¿Es este problema realmente particularmente relevante en el aprendizaje automático?
2 - ¿Funciona la regla de 10 veces? ¿Hay otras fuentes relevantes para este tema?
fuente
Respuestas:
La regla de las diez veces me parece una regla general, pero es cierto que el rendimiento de su algoritmo de aprendizaje automático puede disminuir si no lo alimenta con suficientes datos de entrenamiento.
Una forma práctica y basada en datos de determinar si tiene suficientes datos de entrenamiento es trazando una curva de aprendizaje, como la del ejemplo a continuación:
La curva de aprendizaje representa la evolución de los errores de entrenamiento y prueba a medida que aumenta el tamaño de su conjunto de entrenamiento.
Como puede ver en la parte más a la derecha de la trama, las dos líneas en la trama tienden a llegar y a la asíntota. Por lo tanto, eventualmente llegará a un punto en el que aumentar el tamaño de su conjunto de datos no tendrá un impacto en su modelo entrenado.
La distancia entre el error de prueba y las asíntotas de error de entrenamiento es una representación del sobreajuste de su modelo. Pero lo más importante, esta trama dice si necesita más datos. Básicamente, si representa un error de prueba y entrenamiento para aumentar subconjuntos más grandes de sus datos de entrenamiento, y las líneas no parecen estar llegando a una asíntota, debe seguir recolectando más datos.
fuente
X_train, y_train: Only train subset
oX, y: the entire dataset
fuente