Comprender los bigotes de un diagrama de caja

9

Tengo una pregunta sobre la interpretación de los bigotes de un diagrama de caja. He leído lo siguiente: "En la parte superior e inferior del rectángulo, los" bigotes "muestran el rango de 1,5 veces la distancia entre los cuantiles de 0,25 y 0,75", pero no entiendo completamente lo que se entiende por "distancia" .

No puede ser que se quiera decir la masa de probabilidad, ya que entre el cuantil de 0.25 y 0.75 obviamente siempre tenemos el mismo porcentaje de datos. ¿Cuál es entonces la idea?

Invitado555
fuente

Respuestas:

6

El valor de X que corresponde al cuantil 75 menos el valor de X que corresponde al 25 es la distancia. Por ejemplo, para SAT Math Test, 620 es el 75º y 520 es el 25º cuantil. Entonces, si su puntaje es superior a 620, habrá terminado mejor que el 75% de los examinados. Los bigotes se extenderían hasta 1.5 * (620-520) puntos de largo.

Dimitriy V. Masterov
fuente
Bueno, pero los bigotes serían de la misma longitud en ambos lados de la caja (lo cual no es necesariamente el caso).
Invitado555
8
+1, una respuesta (un poco más) completa es que los bigotes son de hasta 1.5 * IQR, si no tiene más datos dentro de ese intervalo, el bigote se detiene. Además, cualquier dato adicional más allá de ese punto se representa individualmente como posibles valores atípicos.
gung - Restablece a Monica
Con esta pequeña explicación adicional está claro ahora, ¡muchas gracias!
Invitado555
Edité la respuesta con el excelente punto de @gung.
Dimitriy V. Masterov
55
@gung y una respuesta aún más completa es que los bigotes siempre se encuentran en un punto existente en los datos
hadley
4

Un diagrama de caja tiene la intención de resumir un conjunto relativamente pequeño de datos de una manera que muestre claramente

  • Un valor central.

  • La difusión de los valores "típicos".

  • Valores individuales que se apartan tanto del valor central, en relación con la propagación, que se seleccionan para una atención especial y se identifican por separado (por nombre, por ejemplo). Estos se denominan "valores identificados".

Esto se debe hacer de una manera robusta : eso significa que el diagrama de caja no debería verse apreciablemente diferente cuando uno, o una porción relativamente pequeña, de los valores de datos se cambia arbitrariamente.

La solución adoptada por su inventor John Tukey es utilizar las estadísticas de pedidos, los datos ordenados de menor a mayor, de manera sistemática. Para simplificar (hizo cálculos mentales o con lápiz y papel) Tukey se centró en las medianas : los valores medios de los lotes de números. (Para lotes con recuentos pares, Tukey utilizó el punto medio de los dos valores medios). Una mediana es resistente a los cambios en hasta la mitad de los datos en los que se basa, por lo que es excelente como estadística robusta. Así:

  • El valor central se estima con la mediana de todos los datos.

  • La propagación se estima con la diferencia entre las medianas de la "mitad superior", todos los datos iguales o superiores a la mediana, y la "mitad inferior", todos los datos iguales o inferiores a la mediana. Estas dos medianas se denominan "bisagras" o "cuartos" superiores e inferiores. En la actualidad, tienden a ser reemplazados por cosas llamadas cuartiles (que no tienen una definición universal, por desgracia).

  • Las cercas invisibles para la detección de valores atípicos se levantan 1.5 y 3 veces más allá de las bisagras (lejos del valor central).

    • "El valor en cada extremo más cercano, pero aún dentro, la cerca interna es 'adyacente'".
    • Los valores más allá de la primera valla se denominan "valores atípicos".
    • Los valores más allá de la segunda valla están "lejos".

(Los que tengan la edad suficiente para recordar el argot hippie de los años 60 entenderán la broma).

Como la extensión es una diferencia de los valores de los datos, estas cercas tienen las mismas unidades de medida que los datos originales: este es el sentido de "distancia" en la pregunta.

En cuanto a los valores de datos para identificar, Tukey escribió

Al menos podemos identificar los valores extremos, y podríamos identificar algunos más.

Cualquier método gráfico para mostrar la mediana, las bisagras y los valores identificados merece ser llamado "diagrama de caja" (originalmente, "diagrama de caja y bigotes"). Las cercas generalmente no están representadas. El diseño de Tukey consiste en un rectángulo que describe las bisagras con una "cintura" en la mediana. Los "bigotes" discretos en forma de línea se extienden hacia afuera desde las bisagras hasta los valores más internos identificados (tanto arriba como debajo de la caja). Por lo general, estos valores identificados más internos son los valores adyacentes definidos anteriormente.

En consecuencia, la apariencia predeterminada de un diagrama de caja es extender los bigotes a los valores de datos no periféricos más extremos e identificar (a través de etiquetas de texto) los datos que comprenden los extremos de los bigotes y todos los valores atípicos. Por ejemplo, el volcán Tupungatito es el valor adyacente alto para los datos de las alturas del volcán representados a la derecha de la figura: el bigote se detiene allí. Tupungatito y todos los volcanes más altos se identifican por separado.

Para que esto muestre los datos fielmente, la distancia en el gráfico es proporcional a las diferencias en los valores de los datos. (Cualquier desviación de la proporcionalidad directa introduciría un "Factor de mentira" en la terminología de Tufte (1983)).

Figura de EDA

Estas dos gráficas de caja del libro EDA de Tukey (p. 41) ilustran los componentes. Es de destacar que ha identificado valores no periféricos en los extremos superior e inferior del conjunto de datos de los Estados a la izquierda y un valor no periférico bajo de las alturas del volcán a la derecha. Esto ejemplifica la interacción de las reglas y el juicio que impregna el libro.

(Puede decir que estos datos identificados no son periféricos, porque puede estimar la ubicación de las cercas. Por ejemplo, las bisagras de las alturas estatales están cerca de 11,000 y 1,000, dando una extensión de alrededor de 10,000. Multiplicar por 1.5 y 3 da distancias de 15,000 y 30,000. Por lo tanto, la cerca superior invisible debe estar cerca de 11,000 + 15,000 = 26,000 y la cerca inferior, en 1,000 - 15,000, estaría debajo de cero. Las cercas distantes estarían cerca de 11,000 + 30,000 = 41,000 y 1,000 - 30,000 = -29,000.)


Referencias

Tufte, Edward. La visualización de la información cuantitativa. Prensa de Cheshire, 1983.

Tukey, John. Capítulo 2, EDA . Addison-Wesley, 1977.

whuber
fuente