Mientras hacía EDA decidí usar un diagrama de caja para ilustrar la diferencia entre dos niveles de un factor.
La forma en que ggplot representó el diagrama de caja fue satisfactoria, pero ligeramente simplista (primer diagrama a continuación). Mientras investigaba las características de los diagramas de caja, comencé a experimentar con muescas.
Entiendo que las muescas muestran el IC alrededor de la mediana, y que si las muescas de dos cuadros no se superponen, hay 'evidencia sólida', con un nivel de confianza del 95%, de que las medianas difieren.
En mi caso (segundo gráfico), las muescas no se superponen significativamente. Pero, ¿por qué la parte inferior de la caja en el lado derecho toma esa forma extraña?
Trazar los mismos datos en una violín no indicaba nada inusual sobre la densidad de probabilidad del violín correspondiente.
ggplot2
. También me gusta la idea de trazar los puntos de datos individuales, pero está frustrado en la medida en que los puntos dentro del cuadro oscuro se vuelven invisibles.Respuestas:
Indica que el percentil 25 es aproximadamente 21, el percentil 75 es aproximadamente 30.5. Y los límites inferior y superior de la muesca son aproximadamente 18 y 27.
Una razón común es que su distribución está sesgada o el tamaño de la muestra es bajo. El límite de la muesca se basa en:
Si la distancia entre la mediana y el percentil 25 y la distancia entre la mediana y el percentil 75 son extremadamente diferentes (como la de la derecha) y / o el tamaño de la muestra es bajo, la muesca será más ancha. Si es lo suficientemente ancho como para que el límite de la muesca sea más extremo que los percentiles 25 y 75 (también conocido como el cuadro), entonces el diagrama de caja con muescas mostrará esta forma "de adentro hacia afuera".
fuente