¿Cuál es la diferencia entre la detección de valores atípicos y la detección de anomalías?

8

Me gustaría saber la diferencia en términos de aplicaciones (por ejemplo, ¿cuál es la detección de fraude con tarjeta de crédito?) Y en términos de técnicas utilizadas.

Documentos de ejemplo que definen la tarea serían bienvenidos.

Martin Thoma
fuente
¿Has mirado esto? stats.stackexchange.com/questions/189664/… . Parece que la respuesta a tu pregunta está ahí.
mes
@Moh lo he visto y creo que las respuestas no son muy claras. Es por eso que solicité que se incluyan aplicaciones y técnicas en respuesta a mi pregunta.
Martin Thoma
Especialmente parece no haber consenso si esos dos términos tienen significados diferentes o no. Veamos si esta comunidad encuentra un consenso / recursos autorizados.
Martin Thoma

Respuestas:

7

Fundamentalmente no hay diferencia. Digamos que tiene datos y desea construir un modelo de ellos. Como su nombre lo indica, el modelado se trata de encontrar un modelo, es decir, una representación simplificada de sus datos. A su vez, podemos ver el modelo como un proceso subyacente que generó sus datos en primer lugar, más algo de ruido. Desde ese punto de vista, los datos que ve fueron generados por el modelo, y podemos decir que algunos de los puntos que ve tienen menos probabilidades de haber sido generados por su modelo que otros.

Por ejemplo, si crea un modelo de regresión lineal, es menos probable que el modelo haya generado puntos alejados de la línea de regresión. A eso se refiere la gente cuando habla de "residuos" en lenguaje estadístico normal. También se llama la probabilidad de los datos.

Los puntos de datos que tienen baja probabilidad, según el modelo que ha creado, son anomalías o valores atípicos. Desde el punto de vista de la construcción de modelos, son lo mismo.

Coloquialmente, las personas usan el término 'valor atípico' para significar "algo que debería eliminar del conjunto de datos para que no sesgue mi modelo que estoy construyendo", generalmente porque tienen el presentimiento de que hay algo mal con esos datos y el modelo que desean construir no debería tener que dar cuenta de ello. A menudo, se considera que un valor atípico es un obstáculo para construir un modelo que describa los datos en general, simplemente porque el modelo TAMBIÉN tratará de explicar el valor atípico, que no es lo que el profesional quiere.

Por otro lado, puede usar el hecho de que un modelo también asigna una probabilidad a cada punto de datos para su ventaja: podría construir un modelo que describa una tendencia más simple en los datos y luego buscar activamente valores existentes o nuevos que tengan baja probabilidad Esto es lo que las personas quieren decir cuando dicen 'anomalías'. Si su objetivo es detectar anomalías, especialmente en datos nuevos, esto es una gran cosa. ¡El valor atípico de una persona es la anomalía de otra persona!

tom
fuente
7

(De hecho, quería escribir esto como respuesta a la pregunta de validación cruzada: diferencia entre anomalía y valor atípico , pero la pregunta está protegida; creo que responderla aquí debería estar bien, a pesar de la menor visibilidad)

La gente ocasionalmente argumenta que no hay diferencia entre un valor atípico y una anomalía al citar a Charu Aggarwal, autor del Libro "Análisis de valores atípicos", en particular, esta declaración:

Los valores atípicos también se conocen como anormalidades , discordancias , desviaciones o anomalías en la literatura de minería de datos y estadísticas.

(Fuente: "Análisis de valores atípicos" (Springer), Charu Aggarwal, 2017, http://charuaggarwal.net/outlierbook.pdf )

Sin embargo, esta afirmación no implica que los valores atípicos y las anomalías sean lo mismo, de manera análoga a decir que "los perros a veces se denominan animales" no significa que sean lo mismo.

Es difícil dar una definición formal de los términos. La página de Wikipedia sobre valores atípicos se refiere a la página de Wikipedia sobre detección de anomalías y viceversa, y ambos contienen muchas definiciones e interpretaciones posibles de los términos. Las cosas están empeorando debido a las definiciones y coloquialidades específicas del dominio , donde parece ser suficiente cuando dos personas del mismo campo saben aproximadamente de qué está hablando el otro ...

Sin embargo, Varun Chandola intenta dar un significado más preciso al término "anomalía" en su encuesta de detección de anomalías. En particular, clasifica las anomalías en tres categorías:

  • Anomalías puntuales: una instancia de datos individual puede considerarse anómala con respecto al resto de datos
  • Anomalías contextuales: si una instancia de datos es anómala en un contexto específico (pero no de otra manera)
  • Anomalías colectivas: si una colección de instancias de datos relacionadas es anómala con respecto a todo el conjunto de datos

(Resumido de "Anomaly Detection - A Survey", Varun Chandola et al, ACM Computing Surveys 2009, http://cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf )


Aquí, el término "anomalía puntual" parece estar más cerca de lo que yo consideraría como una posible definición de la palabra "atípico". Y esto está en línea con la declaración de Aggarwal: un valor atípico es una anomalía. Pero no todas las anomalías son atípicas.

(Esto último puede depender de la definición de la palabra atípico. Por supuesto, uno puede definirlo en un meta-nivel y decir que un atípico es lo que un cierto algoritmo de detección de atípico (o modelo) detecta como tal. Pero la mayoría de las definiciones que Me encontré hasta ahora se basan en algún tipo de "distancia", "disimilitud" o "diferencia" de una "mayoría" de otros elementos de datos. Eso suena razonable ...)

Un ejemplo: puede haber varios puntos de datos:

14.5, 14.2, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

Uno puede calcular la media y la desviación estándar y tendrá dificultades para discutir por qué uno de estos puntos debería ser "atípico".

Para una secuencia de puntos de datos como este

14.5, 14.2, 14.4, 14.4, -64564.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

detectar "el valor atípico" debería ser fácil.

Sin embargo, suponiendo que la primera secuencia describa, por ejemplo, las temperaturas exteriores diarias promedio, el hecho de que se haya medido exactamente la misma temperatura promedio de 14.4grados durante una semana entera podría considerarse como una "anomalía".

(Probablemente una "anomalía colectiva" de acuerdo con las definiciones anteriores, pero no discutiré sobre eso ...)


Aunque estoy en el hielo cuando discuto sobre el significado preciso o intuitivo de ciertos términos (porque no soy experto en ciencia de datos ni hablante nativo de inglés), esto significaría que "anomalía" es un término mucho más amplio que "atípico" ". Pero tal vez la comunidad de ciencia de datos solo está en el proceso de clasificar las definiciones adecuadas de estos términos.

Actualizar:

Tal vez mi instinto sobre el significado literal de ciertas palabras está mal. Pero para mí, la palabra "atípico" parece decir "acostado en algún lugar (o lejos de) algo (basado en alguna medida de distancia)". En ese sentido, las 14.4s en el primer ejemplo no son "valores atípicos" per se. Pero, por supuesto, las cosas se vuelven difíciles muy rápidamente aquí: uno podría imaginar un modelo para los datos que contenga el número de días consecutivos con temperaturas iguales (como en una codificación de longitud de ejecución ). Calcular este modelo para los datos dados generaría

1 * 14.5
1 * 14.2
7 * 14.4
1 * 14.3
1 * 14.2
1 * 14.6

donde el valor 7 tiene una gran distancia (diferencia) a los otros valores en el modelo. Entonces, la "anomalía colectiva" de 7 días consecutivos con temperaturas iguales se ha convertido en una "anomalía puntual" por esta transformación.

Marco13
fuente
Muy informativo. ¿Qué nos impide usar "outliers puntuales", "outliers contextuales" y "outliers colectivos"? Creo que nada está forzando una distinción.
Esmailian
@Esmailian Creo que la distinción entre "atípico" y "anomalía" puede tener sentido. Pero dar una definición precisa de cada uno de estos términos que sea aplicable en cada contexto podría ser difícil (o tal vez imposible). Agregué una breve actualización que señala cuál es mi interpretación / definición de la palabra "atípico" y lo difícil que puede ser aplicar una definición tan rigurosa ...
Marco13
El problema con esto es que es una interpretación subjetiva. Si pudiera subrayar la diferencia con citas exactas, sería mucho más útil.
Código Pope
@CodePope ¿A qué se refiere exactamente esto? Agregué cuatro "citas", para el caso, pero señalé que incluso las definiciones más utilizadas son vagas y, a veces, incluso se contradicen entre sí.
Marco13
Por supuesto, agregó cuatro citas, pero ninguna de ellas dice que hay una diferencia entre valor atípico y anomalía o que ese valor atípico es un subelemento de anomalía. Además, ninguna de sus citas y cualquier otro documento que haya leído concuerda con su interpretación de que los valores atípicos son anomalías puntuales. La intuición común es que los valores atípicos son puntos únicos, pero esto no es lo que implican las definiciones formales. Como ejemplo: "Una observación (o subconjunto de observaciones) que parece ser incompatible con el resto de ese conjunto de datos". (Barnet y Lewis - 1994)
Código Pope
0

Un valor atípico es un punto de datos que está relativamente fuera de lo común.

Una anomalía es un caso especial de valores atípicos, podrían tener información o razones especiales / útiles.

jatin gupta
fuente