Modelos de aprendizaje automático en el entorno de producción.

8

Digamos que un Modelo fue entrenado en la fecha utilizando los datos etiquetados disponibles, dividido en entrenamiento y prueba, es decir, , . Este modelo luego se implementa en producción y hace predicciones sobre los nuevos datos entrantes. Pasan algunos días , y hay un montón de datos etiquetados que se recopilan entre y días, llamémoslo . En mi enfoque actual, tomo muestras aleatorias de (toma, por ejemplo, para la división 80/20),dt1traindt1testdt1Xdt1dt1+XDataxDATAx

Entonces, de = (nuevos datos utilizados para ajustar el modelo existente entrenado en ) de = (nuevos datos agregados a la )80%DATAxtrainxdt120%DATAxtestxtestdt1

Este proceso de ajuste se repite a medida que pasa el tiempo.

Al hacer esto, obtengo un conjunto de pruebas cada vez más amplio, así como también evito volver a entrenar todo el modelo (esencialmente puedo tirar los datos antiguos como el modelo ha aprendido de ellos). El nuevo modelo generado es solo una versión afinada del anterior.

Tengo algunas preguntas sobre este enfoque:

  1. ¿Hay algún inconveniente obvio al hacer esto?
  2. ¿Necesitaría alguna vez volver a entrenar completamente el modelo (olvidando todo lo que se aprendió antes y entrenando el modelo con nuevas divisiones de entrenamiento / prueba) después de un tiempo o puede continuar el enfoque que describí anteriormente indefinidamente?
  3. ¿Cuál debería ser la condición para intercambiar el modelo implementado existente con el modelo recién ajustado?
pionero
fuente
Disculpe un neófito, por favor. Debe tener un conjunto de datos muy especial para que se etiquete, ¿sí? El etiquetado supervisado es, por naturaleza, costoso y lento.
xtian
@xtian El costo del etiquetado supervisado y el tiempo que toma depende significativamente del problema. Digamos que usted tenía un modelo ML que predijo cuando alguien entra en un concesionario ¿comprará el automóvil o no (atributos de la persona dados)? Su recopilación de datos etiquetados es relativamente rápida en este caso. En un día, puede obtener más de 100 muestras etiquetadas.
pionero el

Respuestas:

5

Creo que este es un buen enfoque en general. Sin embargo:

  • El ajuste fino de su modelo (aprendizaje en línea) depende mucho del algoritmo y del modelo de qué tan bien funciona. Dependiendo de su algoritmo, puede ser conveniente volver a entrenar todo

  • Su espacio muestral puede cambiar las horas extras. Si tiene suficientes datos, quizás sea mejor volver a entrenar cada pocos días / semanas / meses durante el último año de datos. Si sus muestras antiguas no representan la situación actual, tenerlas incluidas podría dañar su rendimiento más de lo que ayudan las muestras adicionales

  • La condición más importante es si se prueba y cuánto tiempo de inactividad implica, pero en general intercambiar más veces es mejor, y esto puede automatizarse

Jan van der Vegt
fuente
Gracias por la respuesta ! Actualmente estoy usando métodos de conjuntos como Random Forest y Gradient Boosted Trees. La razón por la que no los mencioné, ya que quería saber qué tan bueno es el enfoque agnóstico para el tipo de algoritmo.
pionero el
Sobre el espacio muestral, ¿no crees que se puede manejar dando peso a las observaciones? construyendo algún tipo de noción de tiempo.
pionero el
@trailblazer agregar árboles a su bosque es un enfoque decente, creo, nunca lo intenté, pero debería haber literatura al respecto. Busque el aprendizaje en línea. El algoritmo agnóstico no será posible porque algunos algoritmos solo pueden aprender en todo el conjunto.
Jan van der Vegt
@trailblazer con respecto a la pregunta del espacio muestral, que podría funcionar para algunos algoritmos pero no para otros, esto nuevamente depende de la posibilidad de aprendizaje en línea, pero también necesitaría seguir aumentando los pesos o volver a entrenar en todo, no puede disminuir el peso retroactivamente en muestras antiguas sin reentrenamiento
Jan van der Vegt
0

Depende principalmente del tipo de aprendizaje que tenga su algoritmo ml. Para el aprendizaje sin conexión: volver a entrenar todo es sabio, ya que algunos algoritmos requieren su información completa para generar una mejor suposición. Aprendizaje en línea: su modelo puede ajustarse a los datos recientes o más recientes con la actualización del modelo a medida que llegan los datos.

Yash Kumar
fuente