Me gustaría configurar un algoritmo para detectar una anomalía en series de tiempo, y planeo usar el agrupamiento para eso.
¿Por qué debería usar una matriz de distancia para la agrupación y no los datos de series temporales sin procesar?
Para la detección de la anomalía, utilizaré la agrupación basada en densidad, un algoritmo como DBscan, ¿funcionaría en este caso? ¿Existe una versión en línea para la transmisión de datos?
Me gustaría detectar la anomalía antes de que ocurra, entonces, ¿sería una buena opción usar un algoritmo de detección de tendencias (ARIMA)?
time-series
clustering
trend
napsterockoeur
fuente
fuente
Respuestas:
Con respecto a su primera pregunta, le recomendaría que lea este famoso artículo (La agrupación de subsecuencias de series de tiempo no tiene sentido) antes de agrupar en una serie de tiempo. Está claramente escrito e ilustra muchas trampas que desea evitar.
fuente
La detección de anomalías o "Detección de intervención" ha sido promovida por GCTiao y otros. Hacer ciencia es buscar patrones repetidos. Detectar anomalías es identificar valores que no siguen patrones repetidos. Aprendemos de Newton "Quien conozca los caminos de la Naturaleza notará más fácilmente sus desviaciones y, por otro lado, quien conozca sus desviaciones describirá con mayor precisión sus caminos". Uno aprende las reglas al observar cuándo fallan las reglas actuales. Considere las series de tiempo 1,9,1,9,1,9,5,9. Para identificar la anomalía uno necesita tener un patrón. El "5" es tanto una anomalía como lo sería "14". Para identificar el patrón simplemente use ARIMA y en este caso la "anomalía" se vuelve obvia. Pruebe diferentes enfoques / software y vea cuál sugiere un modelo ARIMA de orden 1,0, 0 con un coeficiente de -1.0. Utilice los procedimientos de búsqueda / google para encontrar "arima automática" o "detección de intervención automática". Puede que te decepcionen las cosas gratis, ya que puede valer lo que pagas. Escribirlo usted mismo puede ser interesante si tiene una gran experiencia en series de tiempo y un par de años que perder. Existen serias limitaciones para los métodos basados en la distanciahttp://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf
fuente