¿Cuáles son algunas alternativas a un diagrama de caja?

20

Estoy trabajando en la creación de un sitio web, que muestre los datos del censo para los Polígonos seleccionados por un usuario y me gustaría mostrar gráficamente la distribución de varios parámetros (un gráfico por parámetro).

Los datos generalmente tienen las siguientes propiedades:

  1. El tamaño de la muestra tiende a ser grande (por ejemplo, alrededor de 10,000 puntos de datos)
  2. El rango de valores tiende a ser mucho mayor (por ejemplo, la población mínima puede ser inferior a 100 y la máxima puede ser algo así como 500,000)
  3. q1 generalmente está cerca del mínimo (digamos 200) mientras q2 y q3 estarán dentro de 10,000
  4. No se parece en nada a una distribución normal

No soy estadístico y, por lo tanto, mi descripción podría no ser exactamente clara.

Me gustaría mostrar esta distribución en un gráfico, que será visto por los ciudadanos (el lego, si lo desea).

Me hubiera gustado usar un histograma, pero no es posible debido a la gran variedad de valores, por lo que hacer bins no es realmente fácil y directo.

Por lo poco que sé sobre estadísticas, un diagrama de caja es lo que a menudo se usa para mostrar este tipo de datos, pero creo que para un laico, descifrar el diagrama de caja no es fácil.

¿Cuáles son mis opciones para mostrar estos datos de una manera fácil de entender?

Devdatta Tengshe
fuente
¿Qué estás mostrando exactamente? Para mí no está claro qué tipo de datos representa su único punto de datos.
mpiktas
1
¿Qué tal un diagrama de densidad del núcleo? statmethods.net/graphs/density.html
Roman Luštrik
@mpiktas: Mis datos son datos del censo de las aldeas. Mi sitio web permitirá al usuario seleccionar un área en el mapa, y luego encontrará todas las aldeas en esa área. Los datos del censo de una aldea consisten en varios valores como: población masculina, población femenina, ingreso familiar promedio, etc. para esa aldea. Espero mostrar la distribución de datos para un valor particular (por ejemplo: Población total) para todas las aldeas que caen en el área seleccionada por el usuario.
Devdatta Tengshe

Respuestas:

13

Un diagrama de caja no es tan complicado. Después de todo, solo necesita calcular los tres cuartiles , y el mínimo y máximo que definen el rango; surge una sutileza cuando queremos dibujar los bigotes y se han propuesto varios métodos. Por ejemplo, en un diagrama de caja de Tukey, los valores fuera de 1,5 veces el intercuartil del primer o tercer cuartil se considerarían valores atípicos y se mostrarían como puntos simples. Vea también Métodos para presentar información estadística: El diagrama de caja para una buena visión general , por Kristin Potter. El software R implementa una regla ligeramente diferente, pero el código fuente está disponible si desea estudiarlo (consulte el boxplot()yboxplot.stats()funciones). Sin embargo, no es muy útil cuando el interés está en identificar valores atípicos de una distribución muy sesgada (pero vea, Un diagrama de caja ajustado para distribuciones sesgadas , por Hubert y Vandervieren, CSDA 2008 52 (12)).

En lo que respecta a la visualización en línea, sugeriría echar un vistazo a Protovis, que es una caja de herramientas js sin complementos para pantallas web interactivas. La página de ejemplos tiene muy ilustraciones de lo que se puede lograr con ella, en muy pocas líneas.

chl
fuente
3
Yo trabajo en investigación biológica. Conozco a algunos colegas (quiero decir, personas con un doctorado) que realmente no pueden comprender los diagramas de caja. No los usaría para apuntar a una audiencia general.
nico
1
@nico Ese es un punto justo. Pero, esta no es una razón para no usar un resumen gráfico eficiente. Una ilustración esquemática de lo que realmente hace un diagrama de caja podría ayudar al lector.
chl
1
realmente depende de cuál es el público objetivo y cuál es el objetivo del sitio. Explicar los diagramas de caja definitivamente ayudaría, pero aún así, algunas personas luchan mucho con el concepto de distribución.
nico
@nico Sí, estoy de acuerdo. Aunque boxplot no se menciona en A Tour through the Visualization Zoo , pero estos son para conjuntos de datos grandes y complejos, simplemente me gusta y lamento ver que no se usa mucho en ciencias experimentales. La superposición de datos en bruto es una forma de ayudar al lector a visualizar la distribución.
chl
1
¡Lo sé! Siempre trato de "convertir" a mis colegas en diagramas de caja, al menos cuando se trata de escribir documentos, hacer presentaciones, etc., ¡pero a veces lo es!
nico
7

Te sugiero que persevere con histogramas. Son mucho más ampliamente entendidos que las alternativas. Use una escala logarítmica para hacer frente al amplio rango de valores. Aquí hay un ejemplo que preparé en un par de minutos en Stata: Histograma con escala logarítmica en el eje de valores
admito que las etiquetas numéricas del eje x no eran del todo sencillas o automáticas, pero como estás creando un sitio web, estoy seguro de que tus habilidades de programación están a la altura ¡desafío!

una parada
fuente
Buen punto. Los histogramas (o gráficos de densidad con experimento con ancho de banda) son una gran solución aquí.
suncoolsu
Tiene toda la razón, que el histograma es la forma más comprendida de mostrar una distribución. Intentaré hacer histogramas con ambos ejes en escala logarítmica.
Devdatta Tengshe
2
Solo sugiero usar una escala logarítmica para el eje x. No creo que una escala logarítmica para el eje de frecuencia sea una buena idea, ya que el área sombreada de cada barra del histograma no sería proporcional al número de observaciones.
parada el
5

Aquí hay una función de matlab para trazar varios histogramas uno al lado del otro en 2D como una alternativa al diagrama de caja. Vea la imagen en la parte superior. Y aquí hay otro

La franja de densidad es otra alternativa al diagrama de caja. Es una franja monocromática sombreada cuya oscuridad en un punto es proporcional a la densidad de probabilidad de la cantidad en ese punto. Esta es una implementación R de la tira de densidad

George Dontas
fuente
1
(+1) Olvidé eso. Puede ser útil.
chl
1
Acabo de encontrar una versión en PDF sin delegar de Visualización de incertidumbre con sombreado .
chl
@chl: ese enlace no funciona
kjetil b halvorsen
4

X%X=0 0,10,20,...,100 . Puede representar gráficamente esta tabla con los porcentajes en un eje xy los deciles en el eje y.

mpiktas
fuente
3
Citando a un amigo mío: si quiere "ocultar" algo en un papel, póngalo en el texto y no en una figura. Si quieres asegurarte de que nadie lo lea, ¡ponlo en una mesa! ;) Solo bromeo, por supuesto, pero tener un sitio web con mapas interactivos para que los usuarios hagan clic, etc., todo eso para obtener una mesa ... bueno, ¡eso sería decepcionante!
nico
@nico, sí, pero a veces las tablas son mucho más informativas que los gráficos. Por ejemplo, prefiero una tabla en lugar de un mal gráfico. En este caso, la tabla todavía se puede representar mediante un gráfico, y sugerí cuantiles porque no tienen problemas con los valores atípicos.
mpiktas
Eso es lo que estoy haciendo actualmente (mostrar los deciles en un gráfico), pero después de mostrárselo a algunos de nuestros destinatarios, recibimos comentarios de que los gráficos no eran fáciles de entender.
Devdatta Tengshe
2

Si se dirige a la población general (es decir, a un público no experto en estadística), debe centrarse en la belleza visual en lugar de la precisión estadística.

¡Olvídate de las gráficas de caja, y mucho menos de las violines (personalmente las encuentro muy difíciles de leer)! Si le preguntaras al hombre de la calle promedio qué es un cuantil, la mayoría de las veces obtendrías un silencio de ojos abiertos ...

Debe usar gráficos de barras, gráficos de burbujas, tal vez algunos gráficos circulares (brrrr). Olvídate de las barras de error (aunque pondría SD en el texto en algún lugar donde corresponda).

Usa colores, formas, líneas gruesas, 3D. Debe hacer que cada cuadro sea único e inmediatamente fácil de entender, incluso sin tener que leer todas las leyendas / ejes, etc. Haga un uso inteligente de los mapas coloreándolos.

La información es hermosa es un muy buen recurso para obtener ideas. Mire este cuadro, por ejemplo: cafeína y calorías : cualquiera puede entenderlo, y es agradable a la vista.

Y, por supuesto, eche un vistazo al trabajo de Edward Tufte.

nico
fuente
Tenga en cuenta que no estaba sugiriendo que usara violines para sus aplicaciones, sino un histograma con contenedores logarítmicamente espaciados. Violin plot fue la respuesta a la pregunta en el título (que era bastante diferente a la pregunta en la publicación misma).
Dikran Marsupial
3
Probablemente le gustará Many Eyes , dataviz , datavisualization.ch e Ideas2evidence , por nombrar algunos.
chl
2

Prefiero las violitas , ya que esto da una idea de la forma de la distribución. Sin embargo, si el gran rango de valores es el problema, entonces tal vez sería mejor trazar el registro de los datos en lugar de los valores sin procesar, lo que haría que elegir los tamaños de los cuadros para los histogramas, etc. No mencione los registros y marque el eje 10, 100, 1000, 10000, 100000, 1000000, etc.

Dikran Marsupial
fuente