Cómo interpretar diagramas de caja con muescas

11

Mientras hacía EDA decidí usar un diagrama de caja para ilustrar la diferencia entre dos niveles de un factor.

La forma en que ggplot representó el diagrama de caja fue satisfactoria, pero ligeramente simplista (primer diagrama a continuación). Mientras investigaba las características de los diagramas de caja, comencé a experimentar con muescas.

Entiendo que las muescas muestran el IC alrededor de la mediana, y que si las muescas de dos cuadros no se superponen, hay 'evidencia sólida', con un nivel de confianza del 95%, de que las medianas difieren.

En mi caso (segundo gráfico), las muescas no se superponen significativamente. Pero, ¿por qué la parte inferior de la caja en el lado derecho toma esa forma extraña?

Trazar los mismos datos en una violín no indicaba nada inusual sobre la densidad de probabilidad del violín correspondiente.

fig.1 diagrama de caja

fig.2 diagrama de caja con muesca

RDJ
fuente
1
En su código de ggplot debe usar fill = factor (am) ya que actualmente am se está utilizando como una variable numérica.
rnso
Ese es un gran lugar @rnso
RDJ
¿Alguien puede publicar los datos originales? Supongo que son de una caja de arena estándar para ggplot2. También me gusta la idea de trazar los puntos de datos individuales, pero está frustrado en la medida en que los puntos dentro del cuadro oscuro se vuelven invisibles.
Nick Cox

Respuestas:

18

En mi caso (segundo gráfico), las muescas no se superponen significativamente. Pero, ¿por qué la parte inferior de la caja en el lado derecho toma esa forma extraña? ¿Cómo explico eso?

Indica que el percentil 25 es aproximadamente 21, el percentil 75 es aproximadamente 30.5. Y los límites inferior y superior de la muesca son aproximadamente 18 y 27.

Una razón común es que su distribución está sesgada o el tamaño de la muestra es bajo. El límite de la muesca se basa en:

median±1.57×IQRn

Si la distancia entre la mediana y el percentil 25 y la distancia entre la mediana y el percentil 75 son extremadamente diferentes (como la de la derecha) y / o el tamaño de la muestra es bajo, la muesca será más ancha. Si es lo suficientemente ancho como para que el límite de la muesca sea más extremo que los percentiles 25 y 75 (también conocido como el cuadro), entonces el diagrama de caja con muescas mostrará esta forma "de adentro hacia afuera".

Penguin_Knight
fuente
1
Muchas gracias por tu explicación detallada. Permítanme preguntar, ¿por qué los límites inferior y superior de la muesca son aproximadamente 17 y 24, no aproximadamente 18 y 27 (en el diagrama de caja derecho)?
Denis
@ Denis, gracias por atrapar eso. Lo he revisado.
Penguin_Knight