Detección de anomalías / valores atípicos escalables

10

Estoy tratando de configurar una infraestructura de big data usando Hadoop, Hive, Elastic Search (entre otros), y me gustaría ejecutar algunos algoritmos en ciertos conjuntos de datos. Me gustaría que los algoritmos en sí sean escalables, por lo que esto excluye el uso de herramientas como Weka, R o incluso RHadoop. La Biblioteca Apache Mahout parece ser una buena opción, y presenta algoritmos para tareas de regresión y agrupamiento .

Lo que estoy luchando por encontrar es una solución para anomalías o detección de valores atípicos.

Dado que Mahout presenta modelos de Markov ocultos y una variedad de técnicas de agrupamiento (incluyendo K-Means), me preguntaba si sería posible construir un modelo para detectar valores atípicos en series de tiempo, usando cualquiera de estos. Estaría agradecido si alguien con experiencia en esto pudiera aconsejarme

  1. si es posible, y en caso de que sea
  2. cómo hacerlo, además
  3. una estimación del esfuerzo involucrado y
  4. precisión / problemas de este enfoque.
doblebyte
fuente
1
Esto es demasiado vago para ser respondido. Las series de tiempo son demasiado diferentes para simplemente arrojar k-means sobre ellas y sacar cualquier cosa útil. Es en gran medida depende de sus datos.
HA SALIDO - Anony-Mousse
1
Para la detección de valores atípicos, eche un vistazo a los algoritmos en ELKI. Esa parece ser la colección más completa de detección de valores atípicos.
HA SALIDO - Anony-Mousse
Las versiones más nuevas de Elasticsearch tienen una detección de anomalías de series temporales incorporada (creo que debe comprar el X-Pack). No estoy seguro de qué algoritmos están utilizando, pero podría valer la pena investigar una solución estándar.
tom

Respuestas:

7

Echaría un vistazo al algoritmo t-digest . Se ha fusionado en mahout y también es parte de algunas otras bibliotecas para la transmisión de datos grandes. Puede obtener más información sobre este algoritmo en particular y la detección de anomalías de big data en general en los siguientes recursos:

  1. Libro práctico de detección de anomalías de aprendizaje automático.
  2. Seminario web: Detección de anomalías cuando no sabe lo que necesita encontrar
  3. Detección de anomalías en Elasticsearch .
  4. Vencer el fraude de miles de millones de dólares mediante la detección de anomalías: un enfoque de procesamiento de señales utilizando datos de Argyle en la plataforma de datos de Hortonworks con Accumulo
Prudenko
fuente
¿Cómo se compara t-digest con el algoritmo p-cuadrado?
David Marx
Gracias por la respuesta: este es un modelo simple para calcular cuantiles extremos, y creo que se ajustará a mis necesidades. Sin embargo, para series de tiempo más complejas que no tienen una distribución casi estacionaria, este enfoque puede fallar, y es entonces cuando creo que necesitaríamos algo adaptativo, como una cadena de Markov.
doublebyte
0

Puede consultar mi respuesta relacionada con el método de detección de anomalías h2o R o Python en stackexchange , ya que también es escalable.

0xF
fuente