¿Cómo interpretar un diagrama de caja?

8

Tengo algunos datos en los que hay 5 variables explicativas categóricas ( concern, breath, weath, sleep, act) y 1 variable de respuesta continua ( tto). Además, cada variable explicativa categórica se divide en 5 niveles que muestran cuán fuerte se siente una persona al respecto. el nivel 1 y el nivel 5 muestran los estados perfecto y peor respectivamente.

Me aconsejaron crear un diagrama de caja para ver la relación entre las variables explicativas y la variable de respuesta. La trama se da a continuación. Sin embargo, no sé cómo leer un diagrama de caja. ¿Alguien puede ayudarme a interpretarlo?

ingrese la descripción de la imagen aquí

Günal
fuente
2
Probablemente haya leído el artículo de Wikipedia: en.wikipedia.org/wiki/Boxplot ¿Podría explicar más claramente lo que no está entendiendo?
Stephan Kolassa
Sí tengo. Entonces conozco al personal básico. Sin embargo, no sé cómo usarlos en esto. Quiero decir que hay muchas parcelas aquí y tengo que elegir las figuras importantes. Por ejemplo, en todas las categorías anteriores, las parcelas del nivel 5 son las más largas. Qué significa eso? ¿Qué efecto tiene sobre tto? Otro ejemplo sería que ¿por qué hay muchos puntos? Sé que representan los valores atípicos, pero no sé cómo expandir esto
Günal
2
Una pregunta relacionada que cubre las limitaciones de lo que puede interpretar de un diagrama de caja: ¿dos distribuciones con resúmenes idénticos de 5 números siempre tendrán la misma forma?
Silverfish

Respuestas:

10

La interpretación del diagrama de caja (alternativamente diagrama de caja y bigote) se basa en el entendimiento de que proporciona una representación gráfica de un resumen de cinco números, es decir, mínimo, primer cuartil, mediana, tercer cuartil y máximo. El cuadro abarca el 50% de las observaciones. Los extremos de los bigotes (líneas verticales que emanan de la parte superior e inferior de la caja) generalmente muestran dónde se encuentran el mínimo y el máximo. Sin embargo, cuando existen posibles valores atípicos (a veces evaluados en base a un rango intercuartil de 1.5 ), se agregan puntos, como es el caso de su figura.×

Puede ser útil para usted mirar un histograma o gráficos de densidad en categorías específicas de los datos, ya que eso puede ayudarlo a comprender lo que dice el diagrama de caja.

@Glen_b indica con razón que la inclinación hacia la izquierda es evidente y la tendencia central para el 5º nivel de fuerza de los sentimientos es más baja que las demás. Sin embargo, es difícil ver si esa diferencia sería estadísticamente significativa o no.

t-student
fuente
8

Aquí hay un resumen básico de lo que hay allí:

  1. Todas las distribuciones aparecen sesgadas a la izquierda, "atascadas" contra el límite superior de 1.0, con muchos "valores atípicos" bajos que se reducen hacia el fondo.
  2. La quinta categoría en cada parcela parece estar más baja que las otras. A veces, la cuarta categoría también es baja.
  3. Las 5 variables (preocupación, respiración, desgaste, sueño, acto) parecen tener patrones ampliamente similares.
Glen_b -Reinstate a Monica
fuente