diagrama de caja en R: ¿Cuentan los valores atípicos cuando se determinan los cuantiles?

8

Tengo un conjunto de datos de 1 dimensión y uso la boxplotfunción para hacer un diagrama de caja. Entonces puedo ver que tengo algunos valores atípicos.

¿Cuentan los valores atípicos cuando se determinan los cuantiles?

¿Hay una forma correcta / incorrecta o ambas son correctas siempre que tengamos claro qué método se ha utilizado? Si es así, ¿cómo lo hace R?

k.dkhk
fuente
66
Es en parte una cuestión de uso del inglés, pero los programas boxplot no determinan valores atípicos. A lo sumo, trazan por separado los puntos en los que se debe pensar y que podrían ser valores atípicos (univariantes).
Nick Cox
1
Para una muestra grande de una distribución exponencial sobre 4.8%de la muestra puede aparecer más allá del bigote superior. Si excluyera estos, podría obtener cuantiles sustancialmente incorrectos
Henry

Respuestas:

12

R, como muchos programas, pero no todos, utiliza principalmente la definición * de Tukey de cómo dibujar un diagrama de caja.

La muestra original completa se usa para calcular las bisagras (donde se dibujan los extremos de la caja).

Las bisagras son muy similares a los cuartiles (se podría decir que son una forma particular de calcular los cuartiles superior e inferior que difieren ligeramente de las definiciones más habituales de cuartiles, aunque también hay varias definiciones diferentes de cuartiles de muestra; de hecho, R ofrece nueve cálculos de cuartil distintos, sin contar las bisagras).

La bisagra superior está en la mediana de la mitad superior de los datos (la mitad superior incluye la mediana de la muestra original si era un punto de datos) y la bisagra inferior está en la mediana de la mitad inferior (que también incluye la mediana de la muestra original si estaba en un punto de datos):

Diagrama que ilustra el cálculo de bisagras

Entonces, por ejemplo, con 6 observaciones, las bisagras son la segunda observación más grande y la quinta más grande (3 puntos en cada mitad). Con 9 observaciones, las bisagras son la tercera y la octava más grandes (5 puntos en cada mitad, la mediana viene en ambas mitades). Con 11 observaciones, la bisagra inferior está a medio camino entre la tercera y la cuarta observación más grande y la bisagra superior está a medio camino entre la octava y la novena observación más grande (6 puntos en cada mitad). La ilustración muestra el caso con 13 observaciones.

Tenga en cuenta que los cuartiles (/ bisagras) no son en absoluto sensibles a los valores de los valores atípicos, solo al hecho de que están fuera de los cuartiles. Puede moverlos todos cerca de los extremos de la caja (para que no haya valores atípicos) sin cambiar los cuartiles / bisagras, o tan lejos como desee (para que estén todos muy lejos), nuevamente sin cambiar los valores de los cuartiles . Así que realmente no habría necesidad de hacer nada cuando haya un "valor atípico".


* O más bien, uno de ellos; Tukey dio varias definiciones, aunque para los propósitos actuales solo necesitamos preocuparnos sobre cómo funciona el cálculo de las bisagras; Digo sobre todo porque la versión con "valores atípicos" sería lo que Tukey llamó un diagrama esquemático, pero no hacen el que tiene dos tipos distintos de marcas "atípicas".

Glen_b -Reinstate a Monica
fuente
¿Es la definición de bisagras en este contexto la misma que la descripción de Tukey de usar la cuarta extensión ? Al leer Comprensión del análisis de datos robusto y exploratorio , afirma: "Algunos lectores pueden estar familiarizados con el rango intercuartil , que está muy cerca de la cuarta extensión porque los cuartiles son casi iguales a los cuartos". No vi en ese libro donde él alguna vez explicó la diferencia entre los dos.
Tavrock
Los cuartos de @Tavrock tienen la misma definición que las bisagras . Ambos términos son invenciones de Tukey. Así que "bisagra" es lo mismo que "cuarta extensión".
Glen_b -Reinstala a Monica el