Diferencia entre anomalía y valores atípicos

13

¿Cuál es la diferencia entre Outlier y Anomaly en el contexto del aprendizaje automático? Tengo entendido que ambos se refieren a lo mismo.

usuario3282512
fuente
3
Por curiosidad, ¿en qué parte de la literatura se hace tal distinción? Tenía la impresión de que los "valores atípicos" no tienen una definición formal, aparte de ser observaciones de alto apalancamiento y alta influencia. Influencia y apalancamiento hacerlo tiene definiciones matemáticas, pero teniendo en cuenta algo "alta" es arbitraria. Parece que se están intercambiando palabras arbitrarias.
AdamO
Las personas que usan la palabra "inlier" implícitamente hacen algún tipo de distinción entre "anomalía" y "outlier", porque un inlier es un tipo de anomalía. Como ni "atípico" ni "anomalía" tienen definiciones técnicas definidas y comúnmente entendidas, deberíamos esperar que esta pregunta tenga múltiples respuestas que difieran (al menos ligeramente) entre sí.
whuber

Respuestas:

9

Los dos términos son sinónimos según:

Aggarwal, Charu C. Análisis de valores atípicos. Springer Nueva York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1

Cita de la página 1:

Los valores atípicos también se conocen como anormalidades, discordancias, desviaciones o anomalías en la literatura de minería de datos y estadísticas.

El texto en negrita no es parte del texto original.

El pdf de descarga gratuita del libro disponible del autor está aquí.

tomas
fuente
El hecho de que los "valores atípicos" se denominen "anomalías" no significa que sean sinónimos. Los "perros" a veces se denominan "animales". Traté de abordar esto con más detalle en esta respuesta (no pude publicarlo aquí, porque la pregunta está protegida).
Marco13
9

Una respuesta irónica:

Outlier: un valor que puede encontrar en sus datos de manera predecible que indica que su modelo no funciona correctamente

Anomalía: un valor que, contra todo pronóstico, encuentra en sus datos que indica que su modelo funciona correctamente

Una respuesta más seria, menos críptica:

El concepto de valores atípicos comienza con la cuestión de construir un modelo que haga suposiciones sobre los datos. Los valores atípicos a menudo son indicadores de que el modelo no describe los datos correctamente y, por lo tanto, debemos cuestionar los resultados de nuestro modelo o la calidad de nuestros datos.

El concepto de anomalías comienza fuera del mundo teórico y dentro del mundo aplicado: queremos buscar comportamientos inusuales en nuestros datos, a veces motivados por el hecho de que estamos interesados ​​en encontrar comportamientos que alguien está tratando de ocultar (como un virus en un correo electrónico). El problema es que, dado que las personas están tratando de ocultar lo que están haciendo, realmente no sabemos qué buscar. Por lo tanto, tomamos un conjunto de datos "buenos" y decidimos que todo lo que encontremos en nuestro nuevo conjunto de datos que no se vea "bueno" es una anomalía y vale la pena dedicarle más tiempo a la comprobación. A menudo, buscar anomalías significa buscar valores atípicos en su nuevo conjunto de datos. ¡Pero tenga en cuenta que estos valores pueden ser muy comunes en su nuevo conjunto de datos, a pesar de ser raros en su antiguo conjunto de datos!

En resumen, los dos conceptos son muy similares en términos de las estadísticas detrás de ellos (es decir, valores inusuales dado su modelo ajustado), pero vienen a la idea desde diferentes ángulos. Además, cuando hablamos de valores atípicos, generalmente nos referimos a un punto de datos inusual en los datos utilizados para ajustar nuestro modelo , donde una anomalía generalmente se entiende como un punto de datos inusual en un conjunto de datos fuera de los datos utilizados para ajustar nuestro modelo .

Nota: esta respuesta se basa en cómo he visto los dos términos utilizados con frecuencia en lugar de definiciones formales. Las experiencias del usuario pueden diferir.

Acantilado
fuente
6

Una anomalía es un resultado que no puede explicarse dada la distribución base (una imposibilidad si nuestras suposiciones son correctas). Un valor atípico es un evento improbable dada la distribución base (una improbabilidad).

H. Iqbal
fuente
77
Citar la fuente de las definiciones y el ejemplo mejoraría mucho la respuesta.
Tim
44
Que yo sepa, son sinónimos. Entonces @H. Iqbal realmente debe citar la fuente y todos los lectores deben evaluar la autoridad de dicha fuente
Jacques Wainer
2
La imposibilidad parece implicar P (X = ANOMALIA) = 0 (es decir, exactamente 0). Entiendo que la detección de anomalías es que el investigador puede estar interesado en eventos que pueden tener una probabilidad positiva.
Cliff AB
4

Los términos se utilizan en gran medida de manera intercambiable. "Outlier" se refiere a algo que está fuera de la norma, por lo que es "anómalo". Pero tengo la impresión de que "atípico" se usa generalmente para observaciones muy raras . En estadística, en una distribución normal, consideraría que tres sigma son valores atípicos. Es decir, se espera que el 99.7% de sus objetos sean "normales". "Anomalía" se usa mucho más liberalmente. Si de repente tiene millones de visitantes en su sitio web, estos no son visitantes raros. Sin embargo, el aumento repentino de visitantes sigue siendo "anómalo", mientras que cada visitante individual no es un "caso atípico".

Puede haber sido en este artículo donde vi discutidas estas diferencias, pero desafortunadamente no puedo acceder a ellas en este momento.

Análisis estadístico y minería de datos, Volumen 5, Número 5, octubre de 2012, páginas 363–387 Una encuesta sobre detección de valores atípicos no supervisados ​​en datos numéricos de alta dimensión

HA SALIDO - Anony-Mousse
fuente
1
Creo que has insinuado sutilmente la diferencia entre valores atípicos y anomalías; los valores atípicos se utilizan para describir datos que no se ajustan a una tendencia general, las anomalías describen el tráfico inusual en un servidor. 50% jk.
Cliff AB
2

Solo para enturbiar aún más las aguas, la anomalía en climatología solo implica la diferencia entre el valor y la media, o una desviación:

El término anomalía de temperatura significa una desviación de un valor de referencia o promedio a largo plazo. Una anomalía positiva indica que la temperatura observada fue más cálida que el valor de referencia, mientras que una anomalía negativa indica que la temperatura observada fue más fría que el valor de referencia.

ver por ejemplo

Eso bien puede considerarse como un aprendizaje automático externo, pero las personas interesadas en la pregunta pueden estar interesadas en esto.

Nick Cox
fuente
1

(1,5 5)y=X(1,1)(5 5,5 5)(3,3.1)y=X

Una anomalía puede ser un punto de datos, o también una tendencia general o comportamiento observado en los datos después de que un modelo ya se ha construido o se ha entendido el proceso de generación de datos. Se enfrenta a anomalías porque el sistema comienza a comportarse de manera diferente, o busca dichos puntos de datos, porque desea estar informado cuando ocurre un evento durante el cual su modelo no es válido. Puede que le interese observar cualquier comportamiento anómalo en las amplitudes de las olas oceánicas, no porque quiera deshacerse de esos puntos de datos y construir un mejor modelo, sino porque quiere saber cuándo podría estar ocurriendo un tsunami.

Semihcan Doken
fuente
2
No estoy de acuerdo con la mayoría de esto. Primero, la primera oración puede ser su definición de valor atípico si lo desea, pero es difícil de conciliar con muchas otras definiciones o usos. Si los datos son (1, 1), (2, 2), (3, 3), (mucho más grandes, mucho más grandes), el punto mucho más grande a menudo se describiría como un valor atípico, pero no hay problema para ajustar un modelo. Podría (y debería) preguntarse por qué los datos se presentan de esa manera, pero ajustar un modelo es fácil. En términos más generales, el principio es que un valor atípico puede separarse del cuerpo principal de los datos, pero aún así es coherente con un modelo plausible.
Nick Cox
Segundo, si la implicación de que omitir los valores atípicos es justo lo que debe hacer, entonces (a) a menudo es problemático incluso decir cuáles son los valores atípicos (b), hay muchas otras soluciones. El hilo stats.stackexchange.com/questions/78063/… tiene un rango más amplio que su título para mencionar varios.
Nick Cox
1
Si sigues mi enlace, verás que ya publiqué con cierta extensión en los valores atípicos. No tengo ningún sentido al releer su respuesta de que está pensando retrospectivamente, ya que parece estar hablando de eliminar los valores atípicos mientras se ajusta. Al volver a leer, noto también que la primera oración de su segundo párrafo incluye la idea de que una anomalía puede ser 'una tendencia o comportamiento general', que es poco probable que sea lo que quiere decir, o si lo es, no lo hago ' No lo entiendo
Nick Cox
1

Buena pregunta. Sin embargo, la búsqueda de Google en el sitio "diferencia entre valores atípicos y anomalías: .edu" muestra que no existe una diferencia teórica entre estos dos términos. Se usan indistintamente en la literatura.

Chandra
fuente