Considero el problema de la clasificación (multiclase) basada en series de tiempo de longitud variable , es decir, encontrar una función
través de una representación global de la serie de tiempo mediante un conjunto decaracterísticas seleccionadas de tamaño fijo independiente de ,
y luego use métodos de clasificación estándar en este conjunto de características.
Estoy no interesado en la predicción, es decir, la predicción de. Por ejemplo, podemos analizar la forma en que camina una persona para predecir el género de la persona.
¿Cuáles son las características estándar que puedo tener en cuenta? Por ejemplo, obviamente podemos usar la media y la varianza de la serie (o momentos de orden superior) y también mirar dentro del dominio de la frecuencia, como la energía contenida en algún intervalo de la Transformación discreta de Fourier de la serie (o Transformación discreta de wavelets ).
Emile, creo que las características enumeradas en su respuesta son puntos de partida bastante buenos, aunque, como siempre, creo que cierta experiencia en el dominio (o al menos una buena reflexión) sobre su problema es igualmente importante.
Es posible que desee considerar incluir características calculadas a partir de las derivadas (o integrales) de su señal. Por ejemplo, apostaría a que la aceleración / desaceleración rápida es un predictor razonablemente bueno de conducción propensa a accidentes. Obviamente, esa información todavía está presente en la señal de posición, pero no es tan explícita.
También puede considerar reemplazar los coeficientes de Fourier con una representación wavelet o paquete wavelet. La principal ventaja de las wavelets es que le permiten localizar una característica tanto en frecuencia como en tiempo, mientras que los coeficientes tradicionales de Fourier se limitan solo al tiempo. Esto podría ser particularmente útil si sus datos contienen componentes que se encienden / apagan de manera irregular o tienen pulsos de onda cuadrada que pueden ser problemáticos para los métodos de Fourier.
fuente
Como sugirieron las otras respuestas, hay una gran cantidad de características de series de tiempo que se pueden usar como características potenciales. Hay características simples como la media, características relacionadas con series de tiempo como los coeficientes de un modelo AR o características altamente sofisticadas como el estadístico de prueba de la prueba de hipótesis de dickey fuller aumentada.
Resumen completo sobre posibles características de series de tiempo
El paquete python tsfresh automatiza la extracción de esas características. Su documentación describe las diferentes características calculadas. Puede encontrar la página con las características calculadas aquí .
Descargo de responsabilidad: soy uno de los autores de tsfresh.
fuente
Le sugiero que, en lugar de utilizar enfoques clásicos para extraer funciones diseñadas a mano, utilice autoencoders . Los autoencoders juegan un papel importante en la extracción de características de la arquitectura de aprendizaje profundo.
La función de identidad parece una función particularmente trivial para tratar de aprender; pero al colocar restricciones en la red, como limitar el número de unidades ocultas, podemos descubrir una estructura interesante sobre los datos.
De esta manera, su deseada será equivalente a los valores de salida de la capa de en medio, en un autoencoder profundo, Si limita el número de unidades ocultas en las de en medio a .ϕ(XT)=v1,…,vD∈R D
Además, puede usar muchos tipos de autoencoder para encontrar la mejor solución a su problema.
fuente
El documento vinculado será algo esclarecedor, ya que está interesado en más o menos el mismo tema en otro contexto.
Resumen en papel (en el Archivo de Internet)
PDF en papel
fuente
Dependiendo de la duración de su serie temporal, el enfoque habitual es dividir los datos en segmentos, por ejemplo, 10 segundos.
Sin embargo, a menudo antes de dividir la serie temporal en segmentos, es necesario realizar un preprocesamiento como el filtrado y el rechazo de artefactos. Luego puede calcular una variedad de características, como las basadas en la frecuencia (es decir, tomar una FFT para cada época), el tiempo (p. Ej., La media, la varianza, etc. de las series de tiempo en esa época) o la morfología (es decir, la forma de la señal / series temporales en cada época).
Por lo general, las características utilizadas para clasificar los segmentos (épocas) de una serie temporal / señal son específicas del dominio, pero el análisis Wavelet / Fourier son simplemente herramientas para permitirle examinar su señal en los dominios de frecuencia / tiempo-frecuencia en lugar de ser características en sí mismas.
En un problema de clasificación, cada época tendrá una etiqueta de clase, por ejemplo, 'feliz' o 'triste', luego entrenaría a un clasificador para distinguir entre las épocas 'feliz' y 'triste' utilizando las 6 características calculadas para cada época.
En el caso de que cada serie temporal represente un caso único para la clasificación, debe calcular cada característica en todas las muestras de la serie temporal. La FFT solo es relevante aquí si la señal es invariante en el tiempo lineal (LTI), es decir, si la señal se puede considerar estacionaria durante toda la serie temporal, si la señal no es estacionaria durante el período de interés, se puede realizar un análisis wavelet más apropiado. Este enfoque significará que cada serie temporal producirá un vector de características y constituirá un caso para la clasificación.
fuente