Estoy tratando de configurar una infraestructura de big data usando Hadoop, Hive, Elastic Search (entre otros), y me gustaría ejecutar algunos algoritmos en ciertos conjuntos de datos. Me gustaría que los algoritmos en sí sean escalables, por lo que esto excluye el uso de herramientas como Weka, R o incluso RHadoop. La Biblioteca Apache Mahout parece ser una buena opción, y presenta algoritmos para tareas de regresión y agrupamiento .
Lo que estoy luchando por encontrar es una solución para anomalías o detección de valores atípicos.
Dado que Mahout presenta modelos de Markov ocultos y una variedad de técnicas de agrupamiento (incluyendo K-Means), me preguntaba si sería posible construir un modelo para detectar valores atípicos en series de tiempo, usando cualquiera de estos. Estaría agradecido si alguien con experiencia en esto pudiera aconsejarme
- si es posible, y en caso de que sea
- cómo hacerlo, además
- una estimación del esfuerzo involucrado y
- precisión / problemas de este enfoque.
fuente
Respuestas:
Echaría un vistazo al algoritmo t-digest . Se ha fusionado en mahout y también es parte de algunas otras bibliotecas para la transmisión de datos grandes. Puede obtener más información sobre este algoritmo en particular y la detección de anomalías de big data en general en los siguientes recursos:
fuente
Puede consultar mi respuesta relacionada con el método de detección de anomalías h2o R o Python en stackexchange , ya que también es escalable.
fuente