¿Cuál es la diferencia entre Outlier y Anomaly en el contexto del aprendizaje automático? Tengo entendido que ambos se refieren a lo mismo.
outliers
terminology
anomaly-detection
usuario3282512
fuente
fuente
Respuestas:
Los dos términos son sinónimos según:
Cita de la página 1:
El texto en negrita no es parte del texto original.
El pdf de descarga gratuita del libro disponible del autor está aquí.
fuente
Una respuesta irónica:
Outlier: un valor que puede encontrar en sus datos de manera predecible que indica que su modelo no funciona correctamente
Anomalía: un valor que, contra todo pronóstico, encuentra en sus datos que indica que su modelo funciona correctamente
Una respuesta más seria, menos críptica:
El concepto de valores atípicos comienza con la cuestión de construir un modelo que haga suposiciones sobre los datos. Los valores atípicos a menudo son indicadores de que el modelo no describe los datos correctamente y, por lo tanto, debemos cuestionar los resultados de nuestro modelo o la calidad de nuestros datos.
El concepto de anomalías comienza fuera del mundo teórico y dentro del mundo aplicado: queremos buscar comportamientos inusuales en nuestros datos, a veces motivados por el hecho de que estamos interesados en encontrar comportamientos que alguien está tratando de ocultar (como un virus en un correo electrónico). El problema es que, dado que las personas están tratando de ocultar lo que están haciendo, realmente no sabemos qué buscar. Por lo tanto, tomamos un conjunto de datos "buenos" y decidimos que todo lo que encontremos en nuestro nuevo conjunto de datos que no se vea "bueno" es una anomalía y vale la pena dedicarle más tiempo a la comprobación. A menudo, buscar anomalías significa buscar valores atípicos en su nuevo conjunto de datos. ¡Pero tenga en cuenta que estos valores pueden ser muy comunes en su nuevo conjunto de datos, a pesar de ser raros en su antiguo conjunto de datos!
En resumen, los dos conceptos son muy similares en términos de las estadísticas detrás de ellos (es decir, valores inusuales dado su modelo ajustado), pero vienen a la idea desde diferentes ángulos. Además, cuando hablamos de valores atípicos, generalmente nos referimos a un punto de datos inusual en los datos utilizados para ajustar nuestro modelo , donde una anomalía generalmente se entiende como un punto de datos inusual en un conjunto de datos fuera de los datos utilizados para ajustar nuestro modelo .
Nota: esta respuesta se basa en cómo he visto los dos términos utilizados con frecuencia en lugar de definiciones formales. Las experiencias del usuario pueden diferir.
fuente
Una anomalía es un resultado que no puede explicarse dada la distribución base (una imposibilidad si nuestras suposiciones son correctas). Un valor atípico es un evento improbable dada la distribución base (una improbabilidad).
fuente
Los términos se utilizan en gran medida de manera intercambiable. "Outlier" se refiere a algo que está fuera de la norma, por lo que es "anómalo". Pero tengo la impresión de que "atípico" se usa generalmente para observaciones muy raras . En estadística, en una distribución normal, consideraría que tres sigma son valores atípicos. Es decir, se espera que el 99.7% de sus objetos sean "normales". "Anomalía" se usa mucho más liberalmente. Si de repente tiene millones de visitantes en su sitio web, estos no son visitantes raros. Sin embargo, el aumento repentino de visitantes sigue siendo "anómalo", mientras que cada visitante individual no es un "caso atípico".
Puede haber sido en este artículo donde vi discutidas estas diferencias, pero desafortunadamente no puedo acceder a ellas en este momento.
fuente
Solo para enturbiar aún más las aguas, la anomalía en climatología solo implica la diferencia entre el valor y la media, o una desviación:
ver por ejemplo
Eso bien puede considerarse como un aprendizaje automático externo, pero las personas interesadas en la pregunta pueden estar interesadas en esto.
fuente
Una anomalía puede ser un punto de datos, o también una tendencia general o comportamiento observado en los datos después de que un modelo ya se ha construido o se ha entendido el proceso de generación de datos. Se enfrenta a anomalías porque el sistema comienza a comportarse de manera diferente, o busca dichos puntos de datos, porque desea estar informado cuando ocurre un evento durante el cual su modelo no es válido. Puede que le interese observar cualquier comportamiento anómalo en las amplitudes de las olas oceánicas, no porque quiera deshacerse de esos puntos de datos y construir un mejor modelo, sino porque quiere saber cuándo podría estar ocurriendo un tsunami.
fuente
Buena pregunta. Sin embargo, la búsqueda de Google en el sitio "diferencia entre valores atípicos y anomalías: .edu" muestra que no existe una diferencia teórica entre estos dos términos. Se usan indistintamente en la literatura.
fuente