Cada observación en mis datos fue recolectada con una diferencia de 0.1 segundos. No lo llamo una serie de tiempo porque no tiene una marca de fecha y hora. En los ejemplos de algoritmos de agrupamiento (que encontré en línea) y PCA, los datos de la muestra tienen 1 observación por caso y no están cronometrados. Pero mis datos tienen cientos de observaciones recolectadas cada 0.1 segundos por vehículo y hay muchos vehículos.
Nota: también he hecho esta pregunta sobre quora.
algorithms
umair durrani
fuente
fuente
Respuestas:
Lo que tienes es una secuencia de eventos según el tiempo, ¡así que no dudes en llamarla Serie temporal!
La agrupación en series de tiempo tiene 2 significados diferentes:
Supongo que te refieres al segundo y aquí está mi sugerencia:
Tiene muchos vehículos y muchas observaciones por vehículo, es decir, tiene muchos vehículos. Entonces tiene varias matrices (cada vehículo es una matriz) y cada matriz contiene N filas (Nr de observaciones) y T columnas (puntos de tiempo). Una sugerencia podría ser aplicar PCA a cada matriz para reducir la dimensionalidad y observar los datos en el espacio de la PC y ver si hay relaciones significativas entre las diferentes observaciones dentro de una matriz (vehículo) . Luego, puede poner cada observación para todos los vehículos entre sí y hacer una matriz y aplicar PCA para ver las relaciones de una sola observación entre diferentes vehículos.
Si no tiene valores negativos, la factorización matricial se recomienda encarecidamente para la reducción de dimensiones de los datos del formulario matricial.
Otra sugerencia podría ser poner todas las matrices una encima de la otra y construir un tensor N x M x T donde N es el número de vehículos, M es el número de observaciones y T es la secuencia de tiempo y aplicar la descomposición del tensor para ver las relaciones a nivel mundial.
En este documento se muestra un enfoque muy agradable para la agrupación de series temporales en el que la implementación es silenciosa y directa.
¡Espero que haya ayudado!
Buena suerte :)
EDITAR
Como mencionaste, te refieres a la segmentación de series de tiempo. Agrego esto a la respuesta.
La segmentación de series de tiempo es el único problema de agrupamiento que tiene una verdad fundamental para la evaluación. De hecho, considera la distribución generadora detrás de la serie temporal y la analiza. Recomiendo encarecidamente esto , esto , esto , esto , esto y esto donde su problema se estudie exhaustivamente. Especialmente el último y la tesis doctoral.
¡Buena suerte!
fuente