Estoy trabajando en la creación de un sitio web, que muestre los datos del censo para los Polígonos seleccionados por un usuario y me gustaría mostrar gráficamente la distribución de varios parámetros (un gráfico por parámetro).
Los datos generalmente tienen las siguientes propiedades:
- El tamaño de la muestra tiende a ser grande (por ejemplo, alrededor de 10,000 puntos de datos)
- El rango de valores tiende a ser mucho mayor (por ejemplo, la población mínima puede ser inferior a 100 y la máxima puede ser algo así como 500,000)
- q1 generalmente está cerca del mínimo (digamos 200) mientras q2 y q3 estarán dentro de 10,000
- No se parece en nada a una distribución normal
No soy estadístico y, por lo tanto, mi descripción podría no ser exactamente clara.
Me gustaría mostrar esta distribución en un gráfico, que será visto por los ciudadanos (el lego, si lo desea).
Me hubiera gustado usar un histograma, pero no es posible debido a la gran variedad de valores, por lo que hacer bins no es realmente fácil y directo.
Por lo poco que sé sobre estadísticas, un diagrama de caja es lo que a menudo se usa para mostrar este tipo de datos, pero creo que para un laico, descifrar el diagrama de caja no es fácil.
¿Cuáles son mis opciones para mostrar estos datos de una manera fácil de entender?
fuente
Respuestas:
Un diagrama de caja no es tan complicado. Después de todo, solo necesita calcular los tres cuartiles , y el mínimo y máximo que definen el rango; surge una sutileza cuando queremos dibujar los bigotes y se han propuesto varios métodos. Por ejemplo, en un diagrama de caja de Tukey, los valores fuera de 1,5 veces el intercuartil del primer o tercer cuartil se considerarían valores atípicos y se mostrarían como puntos simples. Vea también Métodos para presentar información estadística: El diagrama de caja para una buena visión general , por Kristin Potter. El software R implementa una regla ligeramente diferente, pero el código fuente está disponible si desea estudiarlo (consulte el
boxplot()
yboxplot.stats()
funciones). Sin embargo, no es muy útil cuando el interés está en identificar valores atípicos de una distribución muy sesgada (pero vea, Un diagrama de caja ajustado para distribuciones sesgadas , por Hubert y Vandervieren, CSDA 2008 52 (12)).En lo que respecta a la visualización en línea, sugeriría echar un vistazo a Protovis, que es una caja de herramientas js sin complementos para pantallas web interactivas. La página de ejemplos tiene muy ilustraciones de lo que se puede lograr con ella, en muy pocas líneas.
fuente
También es posible que desee echar un vistazo a las parcelas de frijoles .
[ Fuente ]
Implementado en el paquete R por Peter Kampstra.
fuente
Te sugiero que persevere con histogramas. Son mucho más ampliamente entendidos que las alternativas. Use una escala logarítmica para hacer frente al amplio rango de valores. Aquí hay un ejemplo que preparé en un par de minutos en Stata:
admito que las etiquetas numéricas del eje x no eran del todo sencillas o automáticas, pero como estás creando un sitio web, estoy seguro de que tus habilidades de programación están a la altura ¡desafío!
fuente
Aquí hay una función de matlab para trazar varios histogramas uno al lado del otro en 2D como una alternativa al diagrama de caja. Vea la imagen en la parte superior. Y aquí hay otro
La franja de densidad es otra alternativa al diagrama de caja. Es una franja monocromática sombreada cuya oscuridad en un punto es proporcional a la densidad de probabilidad de la cantidad en ese punto. Esta es una implementación R de la tira de densidad
fuente
fuente
Si se dirige a la población general (es decir, a un público no experto en estadística), debe centrarse en la belleza visual en lugar de la precisión estadística.
¡Olvídate de las gráficas de caja, y mucho menos de las violines (personalmente las encuentro muy difíciles de leer)! Si le preguntaras al hombre de la calle promedio qué es un cuantil, la mayoría de las veces obtendrías un silencio de ojos abiertos ...
Debe usar gráficos de barras, gráficos de burbujas, tal vez algunos gráficos circulares (brrrr). Olvídate de las barras de error (aunque pondría SD en el texto en algún lugar donde corresponda).
Usa colores, formas, líneas gruesas, 3D. Debe hacer que cada cuadro sea único e inmediatamente fácil de entender, incluso sin tener que leer todas las leyendas / ejes, etc. Haga un uso inteligente de los mapas coloreándolos.
La información es hermosa es un muy buen recurso para obtener ideas. Mire este cuadro, por ejemplo: cafeína y calorías : cualquiera puede entenderlo, y es agradable a la vista.
Y, por supuesto, eche un vistazo al trabajo de Edward Tufte.
fuente
Prefiero las violitas , ya que esto da una idea de la forma de la distribución. Sin embargo, si el gran rango de valores es el problema, entonces tal vez sería mejor trazar el registro de los datos en lugar de los valores sin procesar, lo que haría que elegir los tamaños de los cuadros para los histogramas, etc. No mencione los registros y marque el eje 10, 100, 1000, 10000, 100000, 1000000, etc.
fuente