La definición estándar de un valor atípico para un diagrama de Caja y Bigotes son los puntos fuera del rango , donde y es el primer cuartil y es el tercer cuartil de los datos. I Q R
¿Cuál es la base de esta definición? Con una gran cantidad de puntos, incluso una distribución perfectamente normal devuelve valores atípicos.
Por ejemplo, suponga que comienza con la secuencia:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Esta secuencia crea una clasificación porcentual de 4000 puntos de datos.
La prueba de normalidad para los resultados qnorm
de esta serie resulta en
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Los resultados son exactamente los esperados: la normalidad de una distribución normal es normal. Crear un qqnorm(qnorm(xseq))
crea (como se esperaba) una línea recta de datos:
Si se crea un diagrama de caja de los mismos datos, boxplot(qnorm(xseq))
produce el resultado:
El diagrama de caja, a diferencia de shapiro.test
, ad.test
o qqnorm
identifica varios puntos como los valores atípicos cuando el tamaño de la muestra es suficientemente grande (como en este ejemplo).
fuente
Respuestas:
Diagramas de caja
Aquí hay una sección relevante de Hoaglin, Mosteller y Tukey (2000): Comprensión del análisis de datos robusto y exploratorio. Wiley . Capítulo 3, "Gráficos de caja y comparación de lotes", escrito por John D. Emerson y Judith Strenio (de la página 62):
Continúan y muestran la aplicación a una población gaussiana (página 63):
Entonces
Además, escriben
Proporcionan una tabla con la proporción esperada de valores que quedan fuera de los valores límite atípicos (etiquetados como "Total% Out"):
Entonces, estos límites nunca pretendieron ser una regla estricta sobre qué puntos de datos son atípicos o no. Como notó, se espera que incluso una distribución Normal perfecta exhiba "valores atípicos" en un diagrama de caja.
Valores atípicos
Hasta donde yo sé, no existe una definición universalmente aceptada de valor atípico. Me gusta la definición de Hawkins (1980):
Idealmente, solo debe tratar los puntos de datos como valores atípicos una vez que comprenda por qué no pertenecen al resto de los datos. Una regla simple no es suficiente. Un buen tratamiento de los valores atípicos se puede encontrar en Aggarwal (2013).
Referencias
Aggarwal CC (2013): Análisis de valores atípicos. Saltador.
Hawkins D (1980): Identificación de valores atípicos. Chapman y Hall.
Hoaglin, Mosteller y Tukey (2000): Comprender el análisis de datos robusto y exploratorio. Wiley
fuente
A menudo se supone que la palabra "valor atípico" significa algo así como "un valor de datos que es erróneo, engañoso, erróneo o roto y, por lo tanto, debe omitirse del análisis", pero eso no es lo que Tukey quiso decir con su uso de valor atípico. Los valores atípicos son simplemente puntos que están muy lejos de la mediana del conjunto de datos.
Su punto sobre esperar valores atípicos en muchos conjuntos de datos es correcto e importante. Y hay muchas buenas preguntas y respuestas sobre el tema.
Eliminar valores atípicos de datos asimétricos
¿Es apropiado identificar y eliminar los valores atípicos porque causan problemas?
fuente
Al igual que con todos los métodos de detección de valores atípicos, se debe tener cuidado y pensar para determinar qué valores son realmente valores atípicos. Creo que el diagrama de caja simplemente proporciona una buena visualización de la propagación de datos y cualquier valor atípico verdadero será fácil de detectar.
fuente
Creo que debería preocuparse si no obtiene algunos valores atípicos como parte de una distribución normal, de lo contrario, tal vez debería estar buscando razones por las que no hay ninguna. Claramente, deben revisarse para asegurarse de que no están registrando errores, pero de lo contrario son de esperar.
fuente