¿Qué información proporciona un diagrama de caja que no proporciona un histograma?

13

Los histogramas dan una buena idea de la distribución de una variable. Las gráficas de caja intentan hacer lo mismo, sin embargo, no dan una buena idea de la distribución de esta variable.

No entiendo por qué la gente usa diagramas de cajas. Los histogramas son mejores en todos los sentidos. ¿Hay alguna razón por la que los usaría a ambos?

Lo único que creo que proporcionan los diagramas de caja es: ¡valores atípicos! Nos dice qué observaciones pueden ser atípicas.

John
fuente
1
¿El histograma es peor en todos los sentidos que una representación de toda la distribución?
Anthony Martin
2
Depende de lo que desee, con un diagrama de caja puede tener algunos valores precisos (por ejemplo, mediana, P75), que no tiene con un histograma. Muestra menos información, pero es más sintética. Mi punto es que incluso un histograma es una simplificación y un desperdicio de información en comparación con toda la distribución. Pero puede ser más fácil de usar
Anthony Martin
2
Un punto de vista contrario sobre la utilidad de los histogramas se ha expresado convincentemente, y bien ilustrado, en la publicación altamente votada en stats.stackexchange.com/a/51753 (que se puede encontrar buscando en nuestro sitio "histograma").
whuber
3
Pensamiento interesante, pero aumentar el tamaño del contenedor reduciría el histograma a una figura similar a un diagrama de caja al tiempo que conserva su desafortunada dependencia de la elección de los puntos de corte. En mi humilde opinión, los méritos reales de los diagramas de caja se pueden apreciar mejor estudiando el uso de Tukey del resumen de letras N para el análisis exploratorio de datos multivariados y recordando que estaba calculando con lápiz y papel en ese momento. Para visualizaciones como un "rastro esquemático errante", otros resúmenes univariados de respuestas condicionales, como histogramas o diagramas de violín, simplemente no funcionarían.
whuber
1
Las dos fallas (imo) del histograma ocurren cuando hay pocas muestras o cuando los cuadros tienen los tamaños incorrectos. La debilidad de un buen diagrama de caja (y estoy pensando en la variabilidad de JMP cuando lo digo) son multimodalidad y detalles finos. Un lugar donde brilla el diagrama de caja es cuando hay pocas muestras. También me gusta cuando hay varias variables que interactúan en diferentes niveles, por lo tanto, el gráfico de variabilidad JMP.
EngrStudent - Restablecer Monica

Respuestas:

16

El hecho de que las gráficas de caja proporcionen más un resumen de una distribución también puede verse como una ventaja en ciertos casos. A veces, cuando comparamos distribuciones, no nos importa la forma general, sino más bien dónde se encuentran las distribuciones entre sí. Trazar los cuantiles uno al lado del otro puede ser una forma útil de hacerlo sin distraernos con otros detalles que quizás no nos interesen.

dsaxton
fuente
1
Esta es la mejor respuesta. ¡Los diagramas de caja son mejores para comparar distribuciones que los histogramas!
kjetil b halvorsen
14

En el caso univariante, los gráficos de caja proporcionan cierta información que el histograma no proporciona (al menos, no explícitamente). Es decir, generalmente proporciona la mediana, los percentiles 25 y 75, min / max que no es un valor atípico y separa explícitamente los puntos que se consideran valores atípicos. Todo esto puede "ocultarse" desde el histograma (y puede ser mejor destacarlo en el caso de valores atípicos).

Sin embargo, la ventaja mucho mayor está en comparar distribuciones en muchos grupos diferentes a la vez. Con más de 10 grupos, esta es una tarea agotadora con histogramas de lado a lado, pero muy fácil con diagramas de caja.

Como mencionó, las parcelas de violín (o parcelas de frijoles) son alternativas algo más informativas. Sin embargo, requieren un poco más de conocimiento estadístico que las gráficas de caja (es decir, si se presentan a una audiencia no estadística, puede ser un poco más intimidante) y las gráficas de caja han existido por mucho más tiempo que los estimadores de densidad del núcleo, de ahí su mayor popularidad.

Acantilado
fuente
3
+1. Sin embargo, las gráficas de caja proporcionan medianas, no medios.
Greenparker
3
Todos pueden tener razón. Las gráficas de recuadros, como generalmente se trazan, muestran las medianas (he visto esto negado, pero no recuerdo haber visto un ejemplo). Pero algunas implementaciones le permiten mostrar medios también. Esa es a menudo una buena idea.
Nick Cox
Gracias por señalar eso. Sigo (incorrectamente) pensando que generalmente es la media, lo que podría conducir a algunas tramas muy extrañas en casos extremos.
Cliff AB
1
Sería bueno si hubiera imágenes para acompañar esto para mostrar el valor de las comparaciones lado a lado con diagramas de caja versus histogramas
Rudolf Olah
7
  1. Si te muestro un histograma y te pregunto dónde está la mediana, es posible que tardes bastante en descifrarlo ... y solo obtendrás una aproximación. Si hago lo mismo con un diagrama de caja, lo tienes de inmediato; si eso es lo que le interesa, los diagramas de caja obviamente ganan.

  2. Estoy de acuerdo en que los diagramas de caja no son tan efectivos como una descripción de la distribución de una sola muestra, ya que la reducen a unos pocos puntos y eso no dice mucho.

    Sin embargo, si está comparando muchas docenas de distribuciones, tener todos los detalles de cada una puede ser más información de la que se puede comparar fácilmente; es posible que desee reducir la información a un número menor de cosas para comparar.

  3. Si más información es mejor, hay muchas mejores opciones que el histograma; un diagrama de tallo y hoja, por ejemplo, o un diagrama de ecdf / quantile.

    O podría agregar información a un histograma:

histograma con diagrama de caja marginal trama de histograma con jitter histograma con diagrama de tira

(tramas de esta respuesta )

El primero de ellos, agregar un diagrama de caja estrecho al margen, le brinda cualquier beneficio que se obtenga de cualquiera de las pantallas.

Glen_b -Reinstate a Monica
fuente
1

Las gráficas de barras proporcionan solo el rango de frecuencia de las observaciones, mientras que las gráficas de caja son mejores para decir dónde se encuentran varios parámetros de una distribución, por ejemplo, la media y las variaciones que las gráficas de barras no pueden. Los diagramas de cajas se usan así como una herramienta comparativa efectiva si uno tiene varias distribuciones.

Shiv_90
fuente
Es raro que un diagrama de caja muestre una media, casi siempre usan medianas, y nunca representan variaciones directamente. Tenga en cuenta también que estas cantidades no suelen considerarse "parámetros de una distribución": son estadísticas descriptivas para un lote de datos .
whuber
Exactamente, son una buena herramienta para describir una distribución sin hacer demasiados cálculos. Y muestran más medianas, y dado que en muchos casos ambas medidas coinciden, los diagramas de cajas son una buena herramienta para aproximar la media también.
Shiv_90
Su comentario parece continuar confundiendo los datos con la distribución subyacente . Es muy raro que la media sea igual a la mediana en cualquier lote de datos. Además, uno de los usos mejores y más comunes de la gráfica de caja es identificar la asimetría, que generalmente implica una diferencia importante entre la media y la mediana. Uno de los principios fundamentales detrás de la concepción original del diagrama de caja es que sea una herramienta exploratoria robusta , lo que implica que es mejor no basarse en estadísticas sensibles como la media o la varianza.
whuber