¿Cuántas variables puedo representar gráficamente antes de perder claridad?

14

Veamos si puedo explicar esta pregunta de economía gráfica que tengo correctamente. Soy nuevo en el campo y vale la pena mencionar que esto es pura curiosidad, y mis ejemplos están, como podrán ver pronto, completamente inventados.

¿Cuántas variables puedo representar gráficamente antes de que mi gráfico pierda calidad de comunicación? Supongamos que mi audiencia es, por ejemplo, lectores de periódicos dominicales.

Supongamos que tengo este conjunto: Peso (x) / Edad (y), y dos individuos: Jane, 10 años, 30 kg; y Joe, 20 años, 60 kg. La representación gráfica podría ser algo como esto:

ingrese la descripción de la imagen aquí ingrese la descripción de la imagen aquí

Ahora, sé que puedo agregar otra variable usando el tamaño de los círculos, así que si quiero agregar una representación de cuántas hamburguesas comen Jane y Joe por semana (10 y 20, respectivamente), podría tener algo como:

ingrese la descripción de la imagen aquí ingrese la descripción de la imagen aquí

E incluso puedo usar forma o color + tamaño para agregar una cuarta variable, por ejemplo, si comen más hamburguesas con queso que hamburguesas de carne (la limitación aquí es que el tipo de hamburguesa es booleana, con solo dos valores posibles), pero de todos modos:

ingrese la descripción de la imagen aquí ingrese la descripción de la imagen aquí

Y esto es donde creo que comienza a complicarse. Agregar formas al combo para representar una quinta variable arriesgaría la 'facilidad de comprensión' del gráfico. Cuando miro el gráfico, mi cerebro (particular) solo procesa 2 o 3 variables, no más. ¿Comen combo o simplemente hamburguesas, por ejemplo ?:

ingrese la descripción de la imagen aquí ingrese la descripción de la imagen aquí

Pensé en una tercera dimensión, pero eso sería terrible. Podría estar pensando en esto de una manera completamente incorrecta, y es probable que me esté perdiendo algo bastante obvio aquí que no puedo entender (por ejemplo, si intentar representar más de 3 o 4 variables es simplemente incorrecto como práctica), pero de regreso a mi pregunta (s):

  • ¿Es 4 (quizás 5 si el gráfico es muy simple como el mío) un número razonable para las variables máximas representadas al mismo tiempo en un gráfico de dos ejes?

  • ¿Existen otros tipos de gráficos que permitan más variables sin perder claridad?

  • ¿Hay un buen ejemplo de un gráfico que representa con éxito una gran cantidad de variables?

Yisela
fuente

Respuestas:

14

Edición III: encontré un magnífico ejemplo de visualización de datos cuantitativos multivariables y tuve que agregarlo. Lo encontrará bajo el título "Edición III (premios Nobel)".

Edición II: ha habido un pequeño malentendido, y he editado para tratar de aclarar cómo interpreto el uso previsto de los datos. Reemplacé dos imágenes y agregué una sección "¿Quieres papas fritas con eso?"


Los gráficos revelan datos.

Edward Tufte:

El desorden y la confusión son fallas de diseño, no atributos de información. Clutter requiere una solución de diseño, no reducción de contenido. Muy a menudo, cuanto más intenso es el detalle, mayor claridad y comprensión, porque el significado y el razonamiento son implacablemente CONTEXTUALES. Menos me aburre.

¿Por qué visualizamos datos?

  • Herramientas para pensar
  • Mostrar el resultado de una visión intensa.
  • Para entender un problema, para tomar una decisión.
  • Mostrar comparaciones, mostrar causalidad
  • Proporcione razones para creer

¿Cómo?

  • muestra los datos
  • inducir al espectador a pensar en la sustancia en lugar de en la metodología, el diseño gráfico, la tecnología de producción gráfica u otra cosa
  • evitar distorsionar lo que dicen los datos
  • presentar muchos números en un espacio pequeño
  • hacer conjuntos de datos grandes coherentes
  • animar a la vista a comparar diferentes datos
  • revelar los datos en varios niveles de detalle, desde una visión general amplia hasta la estructura fina.
  • cumplir un propósito razonablemente claro: descripción, exploración, tabulación o decoración.
  • estar estrechamente integrado con las descripciones estadísticas y verbales de un conjunto de datos.

Algunas definiciones:

Datos:

generalmente se considera "cosas que se ordenan en bases de datos". Por supuesto, esto puede ser números, imágenes, sonido, video, etc. Los datos son recopilables, a menudo cuantitativos. En su forma más cruda es difícil de digerir; solo paredes de dígitos. Ya sabes; la matriz . En términos generales, no tenemos bases de datos masivas que consisten en ceros, para todas las cosas que no tenemos, incluso si a veces las cosas que no tenemos son las más informativas . Así que para ver lo que no tenemos, necesitamos visualizar lo que tenemos.

Información:

es lo que puedes extraer de los datos . Al mostrar datos de alguna manera, podemos obtener información . Uno de los ejemplos que uso a menudo es que si le doy una lista de los países del mundo y le digo que faltan dos, es muy poco probable que los encuentre en función de esa lista. Sin embargo, si muestro esto coloreando todos los países que tengo en un mapa, verás instantáneamente que he omitido la República Centroafricana y Nueva Caledonia. Esto es "reducir el ruido" y contar una historia de la manera más efectiva posible.

Infografías y visualizaciones de datos:

Dudo en llamar a su ejemplo de infografía. Sé que esto a menudo se ve como sinónimos de visualización de datos, diseño de información o arquitectura de información, pero no estoy de acuerdo. Para mí, las infografías son una serie de gráficos, diagramas e ilustraciones que bien podrían contener un montón de declaraciones sesgadas sobre cómo leer los datos. Es menos objetivo, más propenso a saltear datos que no están en el "interés" del creador: se le guía a la conclusión de que alguien predefinió. Tienen un valor de entretenimiento, y a menudo tienen un uso abrumador de ilustraciones que quitan algo de foco de los datos. Esto está bien, pero creo que deberíamos diferenciarnos un poco.

Ejemplos

Big data:

Tenga en cuenta que big data no es lo mismo que datos complejos. Muchos datos pueden ser muy similares, como este mapa de LinkedIn: los datos principales son los mismos, pero hay filtros (por etiquetado). Hay dos variables: geografía y algún tipo de etiqueta que define a las personas en profesiones / intereses / relaciones. Cantidad insana de datos; pero solo dos variables.

ingrese la descripción de la imagen aquí

Multivariable:

Aquí hay un ejemplo de visualización multivariable de datos. Este es el gráfico de 1869 de Charles Minard que muestra el número de hombres en el ejército de campaña ruso de Napoleón en 1812, sus movimientos, así como la temperatura que encontraron en el camino de regreso. Gran versión aquí. ingrese la descripción de la imagen aquí

Toma un poco de tiempo descifrar el código, pero cuando lo haces es espléndido. Las variables cubiertas son:

  • tamaño del ejército (número de vivos / muertos)
  • ubicación geográfica
  • dirección (este - oeste)
  • temperatura
  • hora (fechas)
  • causalidad (muerto en batallas y de frío)

Esa es una cantidad sorprendente de información en un mapa simple de dos colores. La parte geográfica está estilizada para dar espacio a las otras variables, pero no tenemos problemas para obtenerla.

Aquí hay uno más complicado. Esto será mucho más fácil de leer si está familiarizado con visualizaciones evolutivas básicas, cladogramas, filogenia y principios de biogeografía. Tenga en cuenta que está hecho para personas familiarizadas con esto, por lo que es un cuadro científico especializado. Esto es lo que muestra: una imagen filogeográfica de linajes de ranas venenosas de América del Sur. Los mapas a la izquierda muestran las principales regiones biogeográficas a medida que cambian con el tiempo y la imagen a la derecha muestra los linajes de las ranas en el contexto de sus orígenes biogeográficos. (Por Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R, et al. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], a través de Wikimedia Commons). Cuando "descifra el código" es salvajemente, sorprendentemente informativo.

ingrese la descripción de la imagen aquí

Pequeños múltiplos, minigráficos:

No puedo enfatizar esto lo suficiente: nunca subestimes el valor de repetir información o dividirla en visualizaciones idénticas separadas. Mientras sea razonablemente fácil comparar un gráfico con otro, esto está perfectamente bien. Somos máquinas de búsqueda de patrones. Esto a menudo se conoce como pequeños múltiplos. Tenemos pocos problemas para analizar estas imágenes con bastante rapidez, y agrupar todo en un gráfico grande a menudo no tiene sentido cuando diez pequeños funcionarán aún mejor:

ingrese la descripción de la imagen aquí

Otro:

ingrese la descripción de la imagen aquí

Y uno que usa gráficos diferentes pero repetitivos:

ingrese la descripción de la imagen aquí

Sparklines es un término acuñado por Edward Tufte, y también desarrollado en una biblioteca de JavaScript totalmente funcional y totalmente personalizable. Son básicamente gráficos pequeños que se pueden insertar en el texto, como parte del texto y no como un objeto "externo". Este es el aspecto predeterminado: ingrese la descripción de la imagen aquí

Edit III (premios Nobel)

Solo tuve que agregar esta visualización de datos que encontré, simplemente es demasiado buena: muestra premios Nobel. Qué universidad, qué facultad, materia, año, edad, lugares de origen, si fue compartido, nivel de grado. Hermosa evidencia de hecho. Todos estos son datos cuantificables. Más aquí.

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Tu información

Todas las preguntas que plantea @Javi son extremadamente importantes.

Lo que intenta hacer es crear una herramienta visual para pensar. Para hacerlo, debe extraer la mejor calidad de relación señal / ruido. Lo que está luchando es cómo correlacionar datos que tienen diferentes variables, en información . Aquí hay una pregunta: ¿qué debe ser aproximadamente correcto y qué debe ser exactamente correcto? ¿Cuál es el objetivo?

Voy a suponer que desea mostrar los datos sin demasiados sesgos: desea que el lector encuentre correlaciones por sí mismo, si hay alguna correlación. Su objetivo no es decirle a las personas que las hamburguesas son malas para ellas o que las mujeres comen menos hamburguesas que los hombres, sino dejar que lo "vean", si eso es lo que contienen los datos (imagine si esas tres personas fueran una familia. cambiar un poco nuestro punto de vista sobre el gráfico de comer hamburguesas).

Su conjunto de datos es tan pequeño que simplemente podría ponerlo todo en una tabla y estaría bien. Pero, por supuesto, se trata de la idea general:

Un pequeño detalle: el tiempo (edad) tiende a ser algo que vemos como horizontal de izquierda a derecha (líneas de tiempo). Pese algo que esté arriba-abajo, por lo que cambiar su x - y sería una buena idea.

1. ¿Cuáles son las entidades únicas y fijas?

  • Nombres

2. ¿Cuáles son las variables variables (eh ..)?

  • Peso (kg)
  • Edades (años)
  • Número de hamburguesas (entero)
  • Tipo de hamburguesas (entero)

Nota: sus datos consisten enteramente en unidades. Contable, cuantificable cada uno en una escala mental separada. Kilo, edad, peso y números. Y en base de datos, sus nombres son las claves. Cuando comienzas a hacer visualizaciones de espacio-tiempo, se convierte en un verdadero dolor de cabeza. Imagine que debe agregar el lugar de nacimiento, el hogar actual, etc.

Los únicos dos aquí que tienen correlación es el número de hamburguesas y si es o no un combo. Todas las demás variables son independientes, y solo una es fija (nombre). En algún momento, con grandes conjuntos de datos, incluso los nombres dejan de ser interesantes y se reemplazan por datos demográficos, de edad, de sexo o similares.

Con ese pequeño conjunto de datos, podría obtenerlo todo en un gráfico, por ejemplo, así: ingrese la descripción de la imagen aquí

O podría cambiar el eje y el contenido de la burbuja de nombre:

Nota personal: Creo que este es el mejor de los dos, porque los x e y contienen propiedades "físicas" de un ser humano. La variable en las burbujas aquí son el número de hamburguesas.

ingrese la descripción de la imagen aquí

También puede agregar gráficos circulares además del gráfico, o incluso solo tener gráficos circulares. Personalmente tendría ambos, como se mencionó sobre los múltiplos pequeños: ingrese la descripción de la imagen aquí

Quieres papas fritas con eso?

Mi suposición fue que también queríamos saber la proporción de hamburguesa a comida. Cada comida contiene una hamburguesa. No todas las comidas son combomeals.

  1. ¿solo queremos saber si una persona a veces come combomeals?
  2. ¿O queremos saber cuántas de las comidas de hamburguesas también son combomeals?

Si 1., un booleano aplicado al nombre / clave / id sería suficiente.

¿Jane a veces come combomeals? Verdadero Falso.

Si 2., podríamos aplicar un booleano a cada comida:

1 hamburguesa con queso, combomeal = verdadero

1 hamburguesa con queso, combomeal = verdadero

1 hamburguesa con queso, combomeal = falso

1 hamburguesa con queso, combomeal = falso

1 hamburguesa con queso, combomeal = falso

1 hamburguesa con queso, combomeal = falso

1 hamburguesa con queso, combomeal = falso

1 hamburguesa de carne, combomeal = verdadero

1 hamburguesa de carne, combomeal = verdadero

1 hamburguesa de carne, combomeal = falso

Eso es muy tedioso, por lo que podríamos desglosarlo en:

Jane come 10 hamburguesas. De estos, tres son combos ("¿quieres papas fritas con eso?").

Uno de los combomeals es un menú de hamburguesas.

Dos de los combomeals son el menú de hamburguesas con queso.

El resto son hamburguesas individuales. 5 quesos, dos de res.

Este gráfico fue un intento de visualizar eso. En esta versión he guardado las rebanadas de pastel para que quede más claro. Lo importante es que no sería un gran salto comenzar a aplicar grandes conjuntos de datos y%: ingrese la descripción de la imagen aquí

Pero creo que la mejor manera es repensar.

Otra forma de verlo, es hacerlo realmente muy simple. Aquí es más fácil ver qué grupos de edad, qué grupos de peso y todos los datos que no "tiene" nos pueden decir. Los datos que tiene no están relacionados con el espacio, son solo unidades (kg, años, números + clave / id / nombre):

(Editar: Huevo en mi cara: he reemplazado estas imágenes por otras más correctas, en cuanto a "todas las comidas son hamburguesas, no todas las comidas son combo")

ingrese la descripción de la imagen aquí Esto sería bastante fácil de expandir con más personas:

ingrese la descripción de la imagen aquí O, aún mejor, si compara los grupos de edad de 10, 20 y 30 años, podría hacer una visualización estadística bastante simple de leer:

ingrese la descripción de la imagen aquí

..Y solo para ser lo más claro posible; Aquí hay un ejemplo de esta forma de pensar. Este gráfico muestra los sobrevivientes de Titanic, proporción de tripulación, clase, hombres, mujeres. ingrese la descripción de la imagen aquí

Habrá muchas otras soluciones, estas son solo algunas ideas.

Podría seguir y seguir, pero ahora me he agotado y probablemente a todos los demás.

Herramientas para jugar:

Gephi

Gapminder Vea esta presentación fenomenal de TED por Hans Rosling: ama a ese chico

Cartas de Google

somvis

Raphaël

MIT Exhibit (anteriormente llamado Similie)

d3

Highcharts

Otras lecturas:

PJ Onori; En defensa de lo duro

Edward Tufte: hermosa evidencia

Edward Tufte: imaginando información

Edward Tufte: la visualización de información cuantitativa

Explicaciones visuales: imágenes y cantidades, evidencia y narrativa

Hombre, Alan., 2007 Ilustración una perspectiva teórica y contextual Lausana, Suiza; Nueva York, NY: AVA Academia

Isles, C. y Roberts, R., 1997. En luz visible, fotografía y clasificación en arte, ciencia y cotidiano, Museum of modern art Oxford.

Card, SK, Mackinlay, J. y Shneiderman, B. eds., 1999. Lecturas en visualización de información: Uso de la visión para pensar 1ª ed., Morgan Kaufmann.

Grafton, A. y Rosenberg, D., 2010. Cartografías del tiempo: una historia de la línea de tiempo, Princeton Architectural Press.

Lima, M., 2011. Complejidad visual: mapeo de patrones de información, Princeton Architectural Press.

Bounford, T., 2000. Diagramas digitales: cómo diseñar y presentar información estadística de manera efectiva 0 ed., Watson-Guptill.

Steele, J. e Iliinsky, N. eds., 2010. Hermosa visualización: mirar los datos a través de los ojos de expertos 1ª ed., O'Reilly Media.

Gleick, J., 2011. La información: una historia, una teoría, un diluvio, panteón

benteh
fuente
Lo leí todo, pero tomará semanas absorberlo. ¡Tu deberias escribir un libro!
Joshua Frank
Para la imagen del premio Nobel, ¿sabes cómo lo hicieron? Esas cintas que fluyen son simplemente hermosas.
Joshua Frank
No, no sé exactamente cómo lo hizo, pero Giorgia Lupi ha respondido muy rápido algunas otras preguntas, por lo que podría intentar simplemente preguntarle a giorgialupi.net
antes del
Hola, buena idea Acabo de enviarle un correo electrónico.
Joshua Frank
2
Te mereces un premio novell por esta respuesta n_n
Rafael
5

Creo que hay algunas preguntas adicionales que podrían limitar su búsqueda de la clave para representar los datos a su audiencia. Pienso en ellos como acortar su currículum a un trabajo específico que desee.

  1. ¿Por qué estás creando una infografía?
  2. ¿Cuál es el objetivo o resultado neto que desea que su audiencia sepa sobre sus datos?
  3. ¿Qué sabe sobre su audiencia y cómo se relacionan con los datos? (Edad demográfica, sexo, geolocalización, peso, etc.)
  4. ¿Cuál es el dato más y menos importante que mostrará y la diferencia entre ellos?
  5. ¿Qué medio / contexto mostrará sus datos para obtener mejor su objetivo "neto" para crearlos en primer lugar? Por ejemplo, será una representación digital de datos o física (piense en gominolas en un frasco si su público objetivo son niños). ¿Será para una reunión de oficina o una empresa comercial?
  6. ¿Se pueden dividir los datos en diferentes infografías mientras se mantiene la integridad del objetivo para crearlos?

Sus datos y objetivos deben dictar los términos de lo que debe mostrar y no mostrar. Por ejemplo, cuán importante sería mostrar un gráfico de lo que la gente ordenó en McDonald's un martes entre la 1 p.m. y las 3 p.m., cuando su objetivo era simplemente mostrar la comparación de lo que la gente ordenó en general. La variable de tiempo no es necesaria aunque tengamos los datos sin procesar. Ese no era nuestro objetivo.

Para responder específicamente a sus preguntas. Yo personalmente (subjetiva) que cuando se consigue más allá usando three'ish / 4 variables (tamaño, forma, color, posición) en un gráfico básico como estos, el lector (yo) se aburre / perdido y aburrido / perdido probable es que no la razón por la que se creó el gráfico. Sin embargo, pueden ser totalmente divertidos y realmente involucrar a la audiencia. Por ejemplo, algo como esto como opuesto a esto . Tampoco estoy descartando la importancia del segundo ejemplo porque sería una infografía realmente efectiva si estuviera en una reunión en la oficina mostrando datos generales. Esto vuelve a la pregunta sobre el medio y el contexto de mostrar los datos.

Si está buscando formas de mostrar variables en los datos, sugeriría investigar infografías. Aquí hay una buena pieza inicial de Smashing Magazine sobre cómo crear infografías efectivas. Tenga en cuenta que algo de esto puede y es subjetivo.

Javi
fuente
2

Esta es una excelente pregunta. Verdaderamente.

Brillante línea de pensamiento para estar en.

Debería haber alguna discusión sobre esto. Pero lo expresaría de manera ligeramente diferente:

** **

¿Cuántas propiedades podemos hacer referencia cruzada con tecnologías y diseños ilustrativos modernos?

** **

La respuesta se basa en tres aspectos de la producción: exhibición, diseño y modo de presentación ... todo mezclado y factorizado por salpicaduras de consideración de la audiencia.

La exhibición es una cosa física. Con limitaciones de tamaño, resolución y espacio de color.

El diseño es ilimitado, pero el aspecto realmente interesante de esta pregunta. ¿Cómo podemos explotar las tecnologías ilustrativas modernas y nuestra comprensión del diseño y la creatividad para mostrar lo mejor posible?

Los modos de presentación son estáticos, dinámicos o interactivos. Cada uno con sus propias fortalezas y debilidades, y compuesto por el medio, tipo y tamaño de la pantalla.

Y como Javi señala correctamente, pero tal vez no se acerque lo suficiente con ... ¡ESTO ES TODO SUJETO! O no.

Confuso
fuente