Los histogramas dan una buena idea de la distribución de una variable. Las gráficas de caja intentan hacer lo mismo, sin embargo, no dan una buena idea de la distribución de esta variable.
No entiendo por qué la gente usa diagramas de cajas. Los histogramas son mejores en todos los sentidos. ¿Hay alguna razón por la que los usaría a ambos?
Lo único que creo que proporcionan los diagramas de caja es: ¡valores atípicos! Nos dice qué observaciones pueden ser atípicas.
Respuestas:
El hecho de que las gráficas de caja proporcionen más un resumen de una distribución también puede verse como una ventaja en ciertos casos. A veces, cuando comparamos distribuciones, no nos importa la forma general, sino más bien dónde se encuentran las distribuciones entre sí. Trazar los cuantiles uno al lado del otro puede ser una forma útil de hacerlo sin distraernos con otros detalles que quizás no nos interesen.
fuente
En el caso univariante, los gráficos de caja proporcionan cierta información que el histograma no proporciona (al menos, no explícitamente). Es decir, generalmente proporciona la mediana, los percentiles 25 y 75, min / max que no es un valor atípico y separa explícitamente los puntos que se consideran valores atípicos. Todo esto puede "ocultarse" desde el histograma (y puede ser mejor destacarlo en el caso de valores atípicos).
Sin embargo, la ventaja mucho mayor está en comparar distribuciones en muchos grupos diferentes a la vez. Con más de 10 grupos, esta es una tarea agotadora con histogramas de lado a lado, pero muy fácil con diagramas de caja.
Como mencionó, las parcelas de violín (o parcelas de frijoles) son alternativas algo más informativas. Sin embargo, requieren un poco más de conocimiento estadístico que las gráficas de caja (es decir, si se presentan a una audiencia no estadística, puede ser un poco más intimidante) y las gráficas de caja han existido por mucho más tiempo que los estimadores de densidad del núcleo, de ahí su mayor popularidad.
fuente
Si te muestro un histograma y te pregunto dónde está la mediana, es posible que tardes bastante en descifrarlo ... y solo obtendrás una aproximación. Si hago lo mismo con un diagrama de caja, lo tienes de inmediato; si eso es lo que le interesa, los diagramas de caja obviamente ganan.
Estoy de acuerdo en que los diagramas de caja no son tan efectivos como una descripción de la distribución de una sola muestra, ya que la reducen a unos pocos puntos y eso no dice mucho.
Sin embargo, si está comparando muchas docenas de distribuciones, tener todos los detalles de cada una puede ser más información de la que se puede comparar fácilmente; es posible que desee reducir la información a un número menor de cosas para comparar.
Si más información es mejor, hay muchas mejores opciones que el histograma; un diagrama de tallo y hoja, por ejemplo, o un diagrama de ecdf / quantile.
O podría agregar información a un histograma:
(tramas de esta respuesta )
El primero de ellos, agregar un diagrama de caja estrecho al margen, le brinda cualquier beneficio que se obtenga de cualquiera de las pantallas.
fuente
Las gráficas de barras proporcionan solo el rango de frecuencia de las observaciones, mientras que las gráficas de caja son mejores para decir dónde se encuentran varios parámetros de una distribución, por ejemplo, la media y las variaciones que las gráficas de barras no pueden. Los diagramas de cajas se usan así como una herramienta comparativa efectiva si uno tiene varias distribuciones.
fuente