Digamos que un Modelo fue entrenado en la fecha utilizando los datos etiquetados disponibles, dividido en entrenamiento y prueba, es decir, , . Este modelo luego se implementa en producción y hace predicciones sobre los nuevos datos entrantes. Pasan algunos días , y hay un montón de datos etiquetados que se recopilan entre y días, llamémoslo . En mi enfoque actual, tomo muestras aleatorias de (toma, por ejemplo, para la división 80/20),
Entonces, de = (nuevos datos utilizados para ajustar el modelo existente entrenado en ) de = (nuevos datos agregados a la )
Este proceso de ajuste se repite a medida que pasa el tiempo.
Al hacer esto, obtengo un conjunto de pruebas cada vez más amplio, así como también evito volver a entrenar todo el modelo (esencialmente puedo tirar los datos antiguos como el modelo ha aprendido de ellos). El nuevo modelo generado es solo una versión afinada del anterior.
Tengo algunas preguntas sobre este enfoque:
- ¿Hay algún inconveniente obvio al hacer esto?
- ¿Necesitaría alguna vez volver a entrenar completamente el modelo (olvidando todo lo que se aprendió antes y entrenando el modelo con nuevas divisiones de entrenamiento / prueba) después de un tiempo o puede continuar el enfoque que describí anteriormente indefinidamente?
- ¿Cuál debería ser la condición para intercambiar el modelo implementado existente con el modelo recién ajustado?
Respuestas:
Creo que este es un buen enfoque en general. Sin embargo:
El ajuste fino de su modelo (aprendizaje en línea) depende mucho del algoritmo y del modelo de qué tan bien funciona. Dependiendo de su algoritmo, puede ser conveniente volver a entrenar todo
Su espacio muestral puede cambiar las horas extras. Si tiene suficientes datos, quizás sea mejor volver a entrenar cada pocos días / semanas / meses durante el último año de datos. Si sus muestras antiguas no representan la situación actual, tenerlas incluidas podría dañar su rendimiento más de lo que ayudan las muestras adicionales
La condición más importante es si se prueba y cuánto tiempo de inactividad implica, pero en general intercambiar más veces es mejor, y esto puede automatizarse
fuente
Depende principalmente del tipo de aprendizaje que tenga su algoritmo ml. Para el aprendizaje sin conexión: volver a entrenar todo es sabio, ya que algunos algoritmos requieren su información completa para generar una mejor suposición. Aprendizaje en línea: su modelo puede ajustarse a los datos recientes o más recientes con la actualización del modelo a medida que llegan los datos.
fuente