He comenzado a trabajar a través de Tutoriales de minería de datos estadísticos de Andrew Moore (muy recomendable para cualquier otra persona que se aventura por primera vez en este campo). Comencé leyendo este PDF extremadamente interesante titulado "Introducción general de los algoritmos de detección de anomalías basados en series temporales" en el que Moore rastrea muchas de las técnicas utilizadas en la creación de un algoritmo para detectar brotes de enfermedades. A la mitad de las diapositivas, en la página 27, enumera una serie de otros "métodos de vanguardia" utilizados para detectar brotes. El primero en la lista es wavelets . Wikipeida describe una wavelet como
Una oscilación en forma de onda con una amplitud que comienza en cero, aumenta y luego disminuye de nuevo a cero. Normalmente se puede visualizar como una "breve oscilación"
pero no describe su aplicación a las estadísticas y mis búsquedas en Google arrojan documentos altamente académicos que suponen un conocimiento de cómo las wavelets se relacionan con estadísticas o libros completos sobre el tema.
Me gustaría una comprensión básica de cómo se aplican las wavelets a la detección de anomalías de series temporales, de la misma manera que Moore ilustra las otras técnicas en su tutorial. ¿Alguien puede dar una explicación de cómo funcionan los métodos de detección utilizando wavelets o un enlace a un artículo entendible sobre el tema?
fuente
Las funciones de base de wavelets discretas más comúnmente utilizadas e implementadas (a diferencia del CWT descrito en la respuesta de Robin) tienen dos buenas propiedades que las hacen útiles para la detección de anomalías:
Lo que esto significa en términos prácticos es que su descomposición de wavelet discreta observa los cambios locales en la señal a través de una variedad de escalas y bandas de frecuencia. Si tiene (por ejemplo) ruido de alta frecuencia y gran magnitud superpuesto en una función que muestra un cambio de baja magnitud durante un período más largo, la transformada wavelet separará eficientemente estas dos escalas y le permitirá ver el cambio de la línea de base que muchas otras las técnicas fallarán; Un cambio en esta línea de base puede sugerir un brote de enfermedad o algún otro cambio de interés. De muchas maneras, puede tratar la descomposición en sí misma como más uniforme (y se ha trabajado bastante en la reducción eficiente de los coeficientes wavelet en la estimación no paramétrica, ver, por ejemplo, casi cualquier cosa en wavelets de Donoho). A diferencia de los métodos basados en frecuencias puras, El soporte compacto significa que son capaces de manejar datos no estacionarios. A diferencia de los métodos puramente basados en el tiempo, permiten cierto filtrado basado en la frecuencia.
En términos prácticos, para detectar anomalías o cambiar puntos, aplicaría una transformada de wavelet discreta (probablemente la variante conocida como "DWT de superposición máxima" o "DWT invariante de desplazamiento", según quién lea) a los datos, y observe en los conjuntos de coeficientes de frecuencia más baja para ver si tiene cambios significativos en la línea de base. Esto le mostrará cuándo se produce un cambio a largo plazo debajo de cualquier ruido del día a día. Percival y Walden (consulte las referencias a continuación) obtienen algunas pruebas de coeficientes estadísticamente significativos que podría usar para ver si un cambio como este es significativo o no.
Un excelente trabajo de referencia para wavelets discretas es Percival y Walden, "Métodos Wavelet para análisis de series temporales". Un buen trabajo introductorio es "Introducción a las wavelets y las transformadas de wavelets, una cartilla" de Burrus, Gopinath y Guo. Si viene de una formación en ingeniería, entonces "Elementos de wavelets para ingenieros y científicos" es una buena introducción desde el punto de vista del procesamiento de señales.
(Editado para incluir los comentarios de Robin)
fuente