A menudo estoy construyendo un modelo (clasificación o regresión) donde tengo algunas variables predictoras que son secuencias y he estado tratando de encontrar recomendaciones técnicas para resumirlas de la mejor manera posible para su inclusión como predictores en el modelo.
Como ejemplo concreto, supongamos que se está construyendo un modelo para predecir si un cliente abandonará la empresa en los próximos 90 días (en cualquier momento entre t y t + 90; por lo tanto, un resultado binario). Uno de los predictores disponibles es el nivel del saldo financiero de los clientes para los períodos t_0 a t-1. Tal vez esto represente observaciones mensuales de los 12 meses anteriores (es decir, 12 mediciones).
Estoy buscando formas de construir características de esta serie. Utilizo descriptivos de cada serie de clientes, como la media, alta, baja, estándar, ajustan una regresión OLS para obtener la tendencia. ¿Son sus otros métodos de cálculo de características? ¿Otras medidas de cambio o volatilidad?
AÑADIR:
Como se menciona en una respuesta a continuación, también consideré (pero olvidé agregar aquí) usar Dynamic Time Warping (DTW) y luego el agrupamiento jerárquico en la matriz de distancia resultante, creando un número de grupos y luego usando la membresía del grupo como una característica. Los datos de la prueba de puntuación probablemente tendrían que seguir un proceso en el que el DTW se realizó en casos nuevos y en los centroides del clúster, haciendo coincidir las nuevas series de datos con sus centroides más cercanos ...
La extracción de características es siempre un desafío y el tema menos abordado en la literatura, ya que depende en gran medida de la aplicación.
Algunas ideas que puedes probar:
fuente
A primera vista, debe extraer características de su serie temporal (x - 12) - x. Un enfoque posible es calcular métricas de resumen: promedio, dispersión, etc. Pero al hacerlo, perderá toda la información relacionada con las series temporales. Pero los datos, extraídos de la forma de la curva, pueden ser bastante útiles. Le recomiendo que lea este artículo, donde los autores proponen un algoritmo para la agrupación de series temporales. Espero que te sea útil. Además de dicha agrupación, puede agregar estadísticas de resumen a su lista de funciones.
fuente