Técnica de extracción de características: resumen de una secuencia de datos

11

A menudo estoy construyendo un modelo (clasificación o regresión) donde tengo algunas variables predictoras que son secuencias y he estado tratando de encontrar recomendaciones técnicas para resumirlas de la mejor manera posible para su inclusión como predictores en el modelo.

Como ejemplo concreto, supongamos que se está construyendo un modelo para predecir si un cliente abandonará la empresa en los próximos 90 días (en cualquier momento entre t y t + 90; por lo tanto, un resultado binario). Uno de los predictores disponibles es el nivel del saldo financiero de los clientes para los períodos t_0 a t-1. Tal vez esto represente observaciones mensuales de los 12 meses anteriores (es decir, 12 mediciones).

Estoy buscando formas de construir características de esta serie. Utilizo descriptivos de cada serie de clientes, como la media, alta, baja, estándar, ajustan una regresión OLS para obtener la tendencia. ¿Son sus otros métodos de cálculo de características? ¿Otras medidas de cambio o volatilidad?

AÑADIR:

Como se menciona en una respuesta a continuación, también consideré (pero olvidé agregar aquí) usar Dynamic Time Warping (DTW) y luego el agrupamiento jerárquico en la matriz de distancia resultante, creando un número de grupos y luego usando la membresía del grupo como una característica. Los datos de la prueba de puntuación probablemente tendrían que seguir un proceso en el que el DTW se realizó en casos nuevos y en los centroides del clúster, haciendo coincidir las nuevas series de datos con sus centroides más cercanos ...

B_Miner
fuente

Respuestas:

7

ME ENCANTARÍA ver un cuadro escrito que recopila estudios de casos sobre ingeniería / extracción de características

Por favor avise si esto ayuda

  1. Discretización de datos de series temporales http://arxiv.org/ftp/q-bio/papers/0505/0505028.pdf

  2. Optimización de la discreción de series temporales para el descubrimiento de conocimiento https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing

  3. Experimentando SAX: una nueva representación simbólica de series temporales http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf

  4. Indexación para la exploración interactiva de la serie Big Data http://acs.ict.ac.cn/storage/slides/Indexing_for_Interactive_Exploration_of_Big_Data_Series.pdf

  5. Extracción de características generalizadas para el reconocimiento de patrones estructurales en datos de series temporales http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c

  6. Computación y visualización de alineaciones dinámicas de deformación de tiempo en R: El paquete dtw https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf

Semántica
fuente
2

Lo que intenta hacer aquí es reducir la dimensionalidad de sus características. Puede buscar la reducción de dimensionalidad para obtener varias opciones, pero una técnica muy popular es el análisis de componentes principales (PCA). Los componentes principales no son interpretables como las opciones que ha mencionado, pero hacen un buen trabajo al resumir toda la información.

Ben
fuente
Mi preocupación con esta respuesta es que PCA no reconoce la clara dependencia entre la serie ty t + 1.
B_Miner
Si la dependencia de t y t + 1 es una tendencia o estacionalidad, considere extraerla y tratar el resto como variables independientes.
Diego
2

La extracción de características es siempre un desafío y el tema menos abordado en la literatura, ya que depende en gran medida de la aplicación.

Algunas ideas que puedes probar:

  • Datos sin procesar, medidos día a día. Eso es algo obvio con algunas implicaciones y un preprocesamiento adicional (normalización) para hacer comparables los plazos de diferente duración.
  • Momentos superiores: asimetría, curtosis, etc.
  • Derivado (s): velocidad de evolución
  • El lapso de tiempo no es tan largo, pero quizás valga la pena probar algunas características de análisis de series de tiempo como, por ejemplo, la autocorrelación.
  • Algunas características personalizadas, como romper la línea de tiempo en semanas y medir las cantidades que ya mide cada semana por separado. Entonces, un clasificador no lineal podría combinar, por ejemplo, características de la primera semana con características de la última semana para obtener una idea de la evolución en el tiempo.
iliasfl
fuente
Buenas sugerencias! ¿Puedes desarrollar más el uso de derivados?
B_Miner
Estoy completamente de acuerdo con tu primera declaración. Me ENCANTARÍA ver un cuadro escrito que recopila estudios de casos sobre ingeniería / extracción de características. El adagio es que la creación de características es mucho más importante que el último algoritmo más grande en el rendimiento del modelo predictivo.
B_Miner
2

A primera vista, debe extraer características de su serie temporal (x - 12) - x. Un enfoque posible es calcular métricas de resumen: promedio, dispersión, etc. Pero al hacerlo, perderá toda la información relacionada con las series temporales. Pero los datos, extraídos de la forma de la curva, pueden ser bastante útiles. Le recomiendo que lea este artículo, donde los autores proponen un algoritmo para la agrupación de series temporales. Espero que te sea útil. Además de dicha agrupación, puede agregar estadísticas de resumen a su lista de funciones.

Sobach
fuente
Gracias por el enlace. También había considerado usar DTW y agrupación jerárquica. He experimentado con el paquete R para DWT. jstatsoft.org/v31/i07/paper
B_Miner
1
Pensé específicamente en crear n clústeres y usar la membresía de clústeres como una característica.
B_Miner