El algoritmo de Twitter se basa en
Rosner, B., (mayo de 1983), "Puntos porcentuales para un procedimiento generalizado de ESD", Technometrics, 25 (2), pp. 165-172
¡Estoy seguro de que ha habido muchas técnicas y avances desde 1983 !. He probado mis datos internos, y la detección de anomalías de Twitter no identifica valores atípicos obvios. También usaría otros enfoques para probar valores atípicos en series de tiempo. Lo mejor que he encontrado es el procedimiento de detección de valores atípicos de Tsay que se implementa en el software SAS / SPSS / Autobox y SCA. Todos los cuales son sistemas comerciales. También hay
un paquete tsoutliers que es excelente pero necesita la especificación del arima
modelo para funcionar de manera eficiente. He tenido problemas con su valor predeterminado auto.arima
con respecto a la optimización y la selección del modelo.
El artículo de Tsay es un trabajo fundamental en la detección de valores atípicos en series de tiempo. Revista líder en investigación de pronósticos International Journal of Forecasting mencionó que el artículo de Tsay es uno de los trabajos más citados y los artículos más influyentes en un artículo vinculado anteriormente (ver también a continuación). La difusión de este importante trabajo y otros algoritmos de detección atípicos en el software de pronóstico (especialmente en el software de código abierto) es una rareza.
He encontrado algunas fuentes que pueden ayudarlo, pero no serán tan fáciles / convenientes como ejecutar un script R sobre sus datos: - Numenta tiene una plataforma NuPIC de código abierto que se utiliza para muchas cosas, incluida la detección de anomalías . - Atlas Project de Netflix pronto lanzará una herramienta de detección de anomalías / valores atípicos de código abierto. - Prelert tiene un motor de detección de anomalías que viene como una aplicación del lado del servidor. Su versión de prueba ofrece un uso limitado que puede satisfacer sus necesidades.
Alternativamente, mi empresa, Insignum , tiene un producto en versión beta que ingiere datos de series temporales y detecta anomalías de forma totalmente automatizada y simplemente recibe alertas por correo electrónico cuando se detectan anomalías. Póngase en contacto con Twitter o Linkedin y me complacerá contarle más.
fuente
Autobox (mi compañía) proporciona detección de valores atípicos. El algoritmo de Twitter obtiene los grandes valores atípicos, pero pierde los más pequeños en comparación con Autobox .
Lleva mucho tiempo correr, pero los resultados son mejores para encontrar valores atípicos más pequeños y también cambios en la estacionalidad que también son valores atípicos. A continuación se muestra el modelo que encontró 79 valores atípicos utilizando las primeras 8.560 observaciones de 14.398 observaciones originales. La versión estándar tiene un máximo de 10,000 observaciones, pero podría modificarse para obtener más, pero de todos modos no hay una razón real para tener esa cantidad de datos cuando se desea identificar y responder a los valores atípicos.
Fuimos influenciados por el trabajo realizado por Tsay sobre valores atípicos, cambios de nivel y cambio de varianza y el trabajo de Chow sobre cambios de parámetros junto con nuestro propio trabajo para detectar cambios en la estacionalidad,
Si descarga la versión de prueba de 30 días y carga los datos de ejemplo de Twitter y especifica la frecuencia como 60, guarda 3 archivos de activación en la carpeta de instalación (noparcon.afs, novarcon.afs, notrend.afs) y crea un archivo llamado stepupde. afs con 100.
fuente