¿Cuál es la base para la definición de Plot de caja y bigote de un valor atípico?

17

La definición estándar de un valor atípico para un diagrama de Caja y Bigotes son los puntos fuera del rango , donde y es el primer cuartil y es el tercer cuartil de los datos. I Q R{Q11.5IQR,Q3+1.5IQR}IQR=Q3Q1Q1Q3

¿Cuál es la base de esta definición? Con una gran cantidad de puntos, incluso una distribución perfectamente normal devuelve valores atípicos.

Por ejemplo, suponga que comienza con la secuencia:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

Esta secuencia crea una clasificación porcentual de 4000 puntos de datos.

La prueba de normalidad para los resultados qnormde esta serie resulta en

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

Los resultados son exactamente los esperados: la normalidad de una distribución normal es normal. Crear un qqnorm(qnorm(xseq))crea (como se esperaba) una línea recta de datos:

trama de datos qqnorm

Si se crea un diagrama de caja de los mismos datos, boxplot(qnorm(xseq))produce el resultado:

diagrama de caja de los datos

El diagrama de caja, a diferencia de shapiro.test, ad.testo qqnormidentifica varios puntos como los valores atípicos cuando el tamaño de la muestra es suficientemente grande (como en este ejemplo).

Tavrock
fuente
¿Qué quieres decir con "base"? esta es una definición, y nadie dice que la distribución perfectamente normal no tenga valores atípicos
Haitao Du
2
@ hxd1011, la definición de la distribución no puede ser un valor atípico de sí misma. Esta definición para probar valores atípicos en un diagrama de caja y bigotes es probar / algo / para proporcionar el resultado, lo que sea que esté probando sería la base de la prueba.
Tavrock
Creo que la definición de outlier de caja y bigotes es solo una heurística ... Además, ¿por qué la definición de la distribución no puede tener un outlier de uno mismo?
Haitao Du
3
No importa qué regla elija, terminaría diciendo "con una gran cantidad de puntos, incluso una distribución perfectamente normal devuelve valores atípicos". [Trata de encontrar una manera de identificar de manera útil los valores extremos que no se puede rechazar ningún punto si muestra de una distribución normal.]
Glen_b -Reinstate Mónica
1
Una anécdota muy repetida es que a John Tukey, a quien se le ocurrió esta regla general, se le preguntó por qué 1.5; y dijo que 1 sería demasiado pequeño y 2 sería demasiado. Dada la cantidad de veces que lo he visto mal interpretado como un criterio oracular definitivo, estaría más que feliz de que se desvanezca. ¡Ahora todos tenemos computadoras que pueden mostrar todos los datos!
Nick Cox

Respuestas:

25

Diagramas de caja

Aquí hay una sección relevante de Hoaglin, Mosteller y Tukey (2000): Comprensión del análisis de datos robusto y exploratorio. Wiley . Capítulo 3, "Gráficos de caja y comparación de lotes", escrito por John D. Emerson y Judith Strenio (de la página 62):

[...] Nuestra definición de valores atípicos como valores de datos que son más pequeños que FL32dFo mayor queFU+32dFes algo arbitrario, pero la experiencia con muchos conjuntos de datos indica que esta definición sirve para identificar valores que pueden requerir atención especial. [...]

FLFUdFFUFL

Continúan y muestran la aplicación a una población gaussiana (página 63):

0100.67450.67451.34943322.02352±2.69822399.3%

Entonces

0.7%

Además, escriben

[...] Por lo tanto, podemos juzgar si nuestros datos parecen ser más pesados ​​que los gaussianos en función de cuántos puntos caen más allá de los límites atípicos. [...]

Proporcionan una tabla con la proporción esperada de valores que quedan fuera de los valores límite atípicos (etiquetados como "Total% Out"):

Tabla 3-2.

Entonces, estos límites nunca pretendieron ser una regla estricta sobre qué puntos de datos son atípicos o no. Como notó, se espera que incluso una distribución Normal perfecta exhiba "valores atípicos" en un diagrama de caja.


Valores atípicos

Hasta donde yo sé, no existe una definición universalmente aceptada de valor atípico. Me gusta la definición de Hawkins (1980):

Un valor atípico es una observación que se desvía tanto de las otras observaciones como para despertar sospechas de que fue generada por un mecanismo diferente.

Idealmente, solo debe tratar los puntos de datos como valores atípicos una vez que comprenda por qué no pertenecen al resto de los datos. Una regla simple no es suficiente. Un buen tratamiento de los valores atípicos se puede encontrar en Aggarwal (2013).

Referencias

Aggarwal CC (2013): Análisis de valores atípicos. Saltador.
Hawkins D (1980): Identificación de valores atípicos. Chapman y Hall.
Hoaglin, Mosteller y Tukey (2000): Comprender el análisis de datos robusto y exploratorio. Wiley

COOLSerdash
fuente
7

A menudo se supone que la palabra "valor atípico" significa algo así como "un valor de datos que es erróneo, engañoso, erróneo o roto y, por lo tanto, debe omitirse del análisis", pero eso no es lo que Tukey quiso decir con su uso de valor atípico. Los valores atípicos son simplemente puntos que están muy lejos de la mediana del conjunto de datos.

Su punto sobre esperar valores atípicos en muchos conjuntos de datos es correcto e importante. Y hay muchas buenas preguntas y respuestas sobre el tema.

Eliminar valores atípicos de datos asimétricos

¿Es apropiado identificar y eliminar los valores atípicos porque causan problemas?

Michael Lew - reinstalar a Mónica
fuente
2

Al igual que con todos los métodos de detección de valores atípicos, se debe tener cuidado y pensar para determinar qué valores son realmente valores atípicos. Creo que el diagrama de caja simplemente proporciona una buena visualización de la propagación de datos y cualquier valor atípico verdadero será fácil de detectar.

bdeonovic
fuente
0

Creo que debería preocuparse si no obtiene algunos valores atípicos como parte de una distribución normal, de lo contrario, tal vez debería estar buscando razones por las que no hay ninguna. Claramente, deben revisarse para asegurarse de que no están registrando errores, pero de lo contrario son de esperar.

Robert Jones
fuente