Supongamos que tengo un conjunto de datos: Amount of money (100, 50, 150, 200, 35, 60 ,50, 20, 500)
. He buscado en Google la web en busca de técnicas que se pueden utilizar para encontrar un posible valor atípico en este conjunto de datos, pero que terminó confundido.
Mi pregunta es : ¿Qué algoritmos, técnicas o métodos se pueden usar para detectar posibles valores atípicos en este conjunto de datos?
PD : Tenga en cuenta que los datos no siguen una distribución normal. Gracias.
algorithms
outlier
Nación Chirara
fuente
fuente
Respuestas:
Puede usar BoxPlot para análisis atípicos. Te mostraría cómo hacerlo en Python:
Considere sus datos como una matriz:
Ahora, usa seaborn para trazar el diagrama de caja:
Entonces, obtendrías una trama que se parece a esto:
Parece que 500 es lo único atípico para mí. Pero, todo depende del análisis y el nivel de tolerancia del analista o el estadístico y también la declaración del problema.
Puede echar un vistazo a una de mis respuestas en el SE CrossValidated para obtener más pruebas.
Y hay varias preguntas interesantes sobre los valores atípicos y los algoritmos y técnicas para detectarlos.
Mi favorito personal es la técnica de distancia Mahalanobis .
fuente
Una forma de pensar en la detección de valores atípicos es que está creando un modelo predictivo, luego está verificando si un punto cae dentro del rango de predicciones. Desde un punto de vista teórico de la información, puede ver cuánto aumenta cada observación la entropía de su modelo.
Si está tratando estos datos solo como una colección de números, y no tiene un modelo propuesto para la forma en que se generan, también podría mirar el promedio. Si está seguro de que los números no se distribuyen normalmente, no puede hacer declaraciones sobre qué tan 'alejado' está un número determinado del promedio, pero puede verlo en términos absolutos.
Aplicando esto, puede tomar el promedio de todos los números, luego excluir cada número y tomar el promedio de los demás. El promedio más diferente del promedio global es el mayor valor atípico. Aquí hay algo de python:
fuente
Un enfoque simple sería usar lo mismo que las gráficas de caja: lejos de 1.5 (mediana-q1) o 1.5 (q3-mediana) = valor atípico.
Lo encuentro útil en muchos casos, incluso si no es perfecto y tal vez demasiado simple.
Tiene la ventaja de no suponer normalidad.
fuente