Estoy a punto de graduarme de mi Maestría y aprendí sobre el aprendizaje automático y también realicé proyectos de investigación con él. Me pregunto cuáles son las mejores prácticas de la industria cuando realizo tareas de aprendizaje automático con Big Datasets (como 100s GB o TB). Apreciar si otros científicos de datos pueden compartir su experiencia. Aquí están mis preguntas:
- Obviamente, los conjuntos de datos muy grandes tardan más tiempo en entrenarse (pueden ser días o semanas). Muchas veces necesitamos entrenar varios modelos (SVM, red neuronal, etc.) para comparar y encontrar un mejor modelo de rendimiento. Sospecho que, en proyectos de la industria, queremos que los resultados sean lo más rápidos posible pero que produzcamos el mejor rendimiento. ¿Hay algún consejo para reducir el tiempo de entrenamiento y evaluación? Si recomienda subconjugar el conjunto de datos, me interesará saber cuál es la mejor forma de subconjuntar el conjunto de datos para cubrir todos o la mayoría de los escenarios del conjunto de datos.
- Sabemos que realizar la validación cruzada es mejor ya que puede reducir el sobreajuste. Sin embargo, la validación cruzada también toma tiempo para entrenar y el modelo entrenado con validación cruzada puede no implementarse directamente (hablando de la experiencia de python sklearn: necesito entrenar el modelo con el conjunto de datos nuevamente después de las pruebas de validación cruzada para que se implemente). ¿Suele realizar una validación cruzada en sus proyectos de Big Data o salir adelante con la división de prueba de tren?
Agradezco los comentarios.
La pregunta es, ¿cuántos datos se necesitan para saturar su modelo? Para determinar esto, puede trazar curvas de aprendizaje con cantidades variables de datos, tal vez aumentar o disminuir el tamaño en un factor constante. Si la capacitación en todos los datos no es factible, la curva de aprendizaje puede ayudarlo a realizar una compensación informada.
La saturación del modelo también entra en juego con la validación cruzada. Si no está cerca de la saturación, el uso de un pequeño número de pliegues le dará cifras de rendimiento pesimistas porque entrenará a su modelo con menos datos de los que puede utilizar.
Finalmente y viceversa, puede usar un modelo más complejo en lugar de "redimensionar" los datos para adaptarlos al modelo.
Bienvenido a DataScience.SE.
fuente