Manejo de un conjunto de características que aumenta regularmente

10

Estoy trabajando en un sistema de detección de fraude. En este campo, aparecen nuevos fraudes regularmente, por lo que se deben agregar nuevas características al modelo de manera continua.

Me pregunto cuál es la mejor manera de manejarlo (desde la perspectiva del proceso de desarrollo). Simplemente agregar una nueva característica al vector de características y volver a entrenar al clasificador parece ser un enfoque ingenuo, porque se dedicará demasiado tiempo a volver a aprender las características antiguas.

Estoy pensando en el entrenamiento de un clasificador para cada característica (o un par de características relacionadas), y luego combinar los resultados de esos clasificadores con un clasificador general. ¿Hay algún inconveniente en este enfoque? ¿Cómo puedo elegir un algoritmo para el clasificador general?

Maxim Fridental
fuente

Respuestas:

4

En un mundo ideal, conserva todos sus datos históricos y, de hecho, ejecuta un nuevo modelo con la nueva característica extraída retroactivamente de los datos históricos. Yo diría que el recurso informático gastado en esto es bastante útil en realidad. ¿Es realmente un problema?

Sí, es una técnica ampliamente aceptada para construir un conjunto de clasificadores y combinar sus resultados. Puede construir un nuevo modelo en paralelo solo con nuevas características y promedio en su predicción. Esto debería agregar valor, pero nunca capturará la interacción entre las características nuevas y antiguas de esta manera, ya que nunca aparecerán juntas en un clasificador.

Sean Owen
fuente
2

Aquí hay una idea que surgió de la nada: ¿qué sucede si utiliza el muestreo aleatorio del subespacio (como Sean Owen ya sugirió) para entrenar a un grupo de clasificadores nuevos cada vez que aparece una nueva característica (usando un subconjunto de características aleatorias, incluyendo El nuevo conjunto de características). También puede entrenar esos modelos en un subconjunto de muestras para ahorrar tiempo de entrenamiento.

De esta forma, puede tener nuevos clasificadores que posiblemente asuman funciones nuevas y antiguas y, al mismo tiempo, conserven sus antiguos clasificadores. Incluso podría, quizás utilizando una técnica de validación cruzada para medir el rendimiento de cada clasificador, ser capaz de matar a los que tienen el peor rendimiento después de un tiempo, para evitar un modelo hinchado.

insys
fuente