¿Qué mejores prácticas debo seguir al preparar parcelas?

Respuestas:

23

Los principios de Tufte son muy buenas prácticas al preparar parcelas. Ver también su libro Beautiful Evidence

Los principios incluyen:

  • Mantenga una alta relación de tinta de datos
  • Eliminar basura del gráfico
  • Darle al elemento gráfico múltiples funciones
  • Tenga en cuenta la densidad de datos.

El término a buscar es Visualización de información

Peter Smit
fuente
44
La presentación visual de información cuantitativa de Tufte ( amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20 ) es mejor que Beautiful Evidence IMO. Sin embargo, sus cuatro libros son buenos, y si tiene la oportunidad de asistir a uno de sus cursos, hágalo.
Stephen Turner
55
Estoy de acuerdo con la mayoría de lo que dice Tufte, pero tengo que decir que sus pocos datos: los diagramas de cajas de tinta son simplemente idiotas. Creo que me toman 3-4 veces más tiempo para entender que los diagramas de caja estándar. Los valores predeterminados de R son mucho mejores (aunque las líneas en los extremos de las colas son innecesarias). Los diagramas de caja tradicionales tienen la ventaja adicional de que pueden representar el tamaño de la muestra (con ancho) y las desviaciones estándar (con muescas).
naught101
2
+1 @ naught101 algunos otros comparten esta opinión en SO: stackoverflow.com/questions/6973394/…
Ben
15

Podríamos quedarnos aquí todo el día para denotar las mejores prácticas, pero debes comenzar leyendo Tufte. Mi recomendación principal:

Mantenlo simple.

A menudo las personas intentan cargar sus gráficos con información. Pero realmente debería tener una idea principal que está tratando de transmitir y si alguien no recibe su mensaje casi de inmediato, debe repensar cómo lo ha presentado. Por lo tanto, no comience a trabajar en su gráfico hasta que el mensaje en sí sea claro. La navaja de Occam también se aplica aquí.

Shane
fuente
1
Estoy de acuerdo con la mayoría de este punto, pero pienso "Mantenlo simple". Podría no estar claro. Su punto principal es que debe saber lo que quiere que transmita la tabla. "Mantenlo simple." presenta algunas otras ideas, como "La relación datos: tinta debe ser alta", que Tufte recomienda, y "No presentar más de tres variables", que Tufte desaconseja.
Thomas Levine
Claramente, este consejo es inmensamente mejor que lo contrario. Pero hay situaciones en las que un gráfico es necesariamente complicado y requiere un estudio detallado, cuidadoso y reflexivo. Pero la complicación en sí misma debería ser lo más simple posible. Por ejemplo, 25 parcelas en una matriz de 5 x 5 pueden necesitar un estudio prolongado, pero la idea de que cada una muestra solo algunos de los datos es relativamente fácil de entender.
Nick Cox
12

Una regla general que no siempre sigo pero que en ocasiones es útil es tener en cuenta que es probable que su trama en algún momento en el futuro sea

  • enviado por fax,
  • fotocopiado y / o
  • reproducido en blanco y negro.

Debe tratar de hacer que sus tramas sean lo suficientemente claras como para que, incluso si se reproducen de manera imprecisa en el futuro, la información que la trama intenta transmitir sea legible.

Thomas Levine
fuente
14
Creo que te refieres a enviado por fax en algún momento en el pasado ;)
hadley
+1 por esto. Su trama seminal, el corazón de su trabajo, no debería ser completamente ininteligible porque la imprimí.
Fomite
Esta respuesta aborda un problema similar.
naught101
8

Además de transmitir un mensaje claro, siempre trato de recordar la trama:

  • los tamaños de fuente para etiquetas y leyendas deben ser lo suficientemente grandes, preferiblemente el mismo tamaño de fuente y fuente utilizada en la publicación final.
  • los anchos de línea deben ser lo suficientemente grandes (las líneas de 1 pt tienden a desaparecer si las parcelas se reducen solo ligeramente). Intento ir a anchos de línea de 3 a 5 pt.
  • Si traza múltiples conjuntos de datos / curvas con color, asegúrese de que se puedan entender si se imprimen en blanco y negro, por ejemplo, utilizando diferentes símbolos o estilos de línea además del color.
  • siempre use un formato sin pérdida (o casi sin pérdida), por ejemplo, un formato vectorial como pdf, ps o svg o png o gif de alta resolución (jpeg no funciona en absoluto y nunca fue diseñado para el arte lineal).
  • preparar gráficos en la relación de aspecto final que se utilizará en la publicación. Cambiar la relación de aspecto más tarde puede dar una fuente irritante o formas de símbolos.
  • siempre elimine el desorden inútil del programa de trazado, como información de histograma no utilizada, líneas de tendencia (poco útil) o títulos predeterminados.

He configurado mi software de trazado (matplotlib, ROOT o root2matplotlib) para hacer la mayor parte de este derecho de forma predeterminada. Antes de usar, gnuplotque necesitaba un cuidado especial aquí.

Benjamin Bannier
fuente
8

En el campo de la física, existe la regla de que todo el trabajo / informe debe ser entendible solo con un vistazo rápido a las parcelas. Por lo tanto, aconsejaría principalmente que se explicaran por sí mismas.
Esto también implica que siempre debe verificar si su audiencia está familiarizada con algún tipo de argumento: una vez cometí un gran error al suponer que cada científico sabe qué son los diagramas de caja, y luego perdí una hora para explicarlo.

usuario88
fuente
Simpatiza con la experiencia del diagrama de caja, pero lo que esto implica es (a) el uso de una variante relativamente simple (por ejemplo, mostrar mediana, cuartiles, puntos del 5% y 95% y todos los puntos de datos más allá) en lugar de mostrar cualquier cosa basada en la convención centrada en 1.5 IQR; (b) agregar un subtítulo que haga explícitas las convenciones.
Nick Cox
6

Aquí están mis pautas, basadas en los errores más comunes que veo (además de todos los otros puntos buenos mencionados)

  • Utilice gráficos de dispersión, no gráficos de líneas, si el orden de los elementos no es relevante.
  • Cuando prepare gráficos que deben compararse, use el mismo factor de escala para todos ellos.
  • Aún mejor: encuentre una manera de combinar los datos en un solo gráfico (por ejemplo: los diagramas de caja son mejores que varios histogramas para comparar una gran cantidad de distribuciones).
  • No olvides especificar unidades
  • Use una leyenda solo si debe hacerlo; generalmente es más claro etiquetar las curvas directamente.
  • Si debe usar una leyenda, muévala dentro del gráfico, en un área en blanco.
  • Para gráficos de líneas, apunte a una relación de aspecto que produzca líneas que estén aproximadamente a 45o con la página .
Bossykena
fuente
"los diagramas de caja son mejores que varios histogramas para comparar una gran cantidad de distribuciones" . Esto solo es cierto si sus datos son unimodales y no tienen curtosis u otras características que no pueden ser capturadas por los diagramas de
caja
6

Eche un vistazo a la biblioteca de gráficos R, ggplot2. Los detalles se encuentran en la página web http://had.co.nz/ggplot2/ Este paquete genera muy buenos gráficos predeterminados, que siguen los principios de Tufte, las pautas de Cleveland y el paquete de colores de Ihaka.

visnut
fuente
6

Si traza en color, considere que las personas daltónicas pueden tener problemas para distinguir elementos solo por el color. Asi que:

  • Use estilos de línea para distinguir líneas.
  • Use peso extra en los elementos, haga un ancho de línea de al menos 2 pt, etc.
  • Use diferentes marcadores y colores para distinguir puntos.
  • Use etiquetas y anotaciones, refiriéndose a la posición y al estilo también.
  • Cuando se refiera a los elementos de la trama en el texto, descríbalos por color, posición relativa y estilo: "la curva roja, superior, de guiones".
  • Use una paleta amigable daltónico. Ver http://www.vischeck.com/vischeck/ , http://jfly.iam.u-tokyo.ac.jp/color/#pallet . Tengo una implementación simple de Python de la paleta en la última referencia en code.google.com, busque python-cudtools
Andrej Panjkov
fuente
También considere el hecho de que alguien podría tener que imprimirlo en una impresora en escala de grises. He hecho esto antes: utilicé los colores predeterminados de ggplot2 (que se ven muy bien en una pantalla) para una tarea, que luego imprimí en blanco y negro, ¡y la mitad de los colores no se podían distinguir de los demás! * rubor *
nada101
4

Estas son sugerencias maravillosas. Hemos reunido una gran cantidad de material en http://biostat.mc.vanderbilt.edu/StatGraphCourse . Un grupo de estadísticos en la industria farmacéutica, la academia y la FDA también están creando un recurso que será muy útil para ensayos clínicos e investigaciones relacionadas. Mucho material nuevo se dará a conocer en un mes, pero ya hay mucho allí: http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

Mi libro gráfico favorito personal es Elementos de datos gráficos de William Cleveland.

En términos de software, en mi opinión, es difícil vencer a ggplot2 y los paquetes de celosía de R. Stata también es compatible con algunos gráficos excelentes.

Frank Harrell
fuente
3

También depende de dónde quieras publicar tus tramas. Se ahorrará muchos problemas consultando la guía de autores antes de realizar tramas para una revista.

Guarde también las parcelas en un formato que sea fácil de modificar o guarde el código que ha utilizado para crearlas. Lo más probable es que necesite hacer correcciones.

Matti Pastell
fuente
2

Las otras respuestas son demasiado formuladas para ser convincentes, así que permítanme dar una respuesta más general. He luchado con esta pregunta por un tiempo. Ofrezco este proceso:

  1. Conoce tu mensaje
  2. Conoce a tu audiencia
  3. Conoce tus limitaciones
  4. Adapte su mensaje a su audiencia dadas sus limitaciones

Soy escéptico con respecto a afirmaciones generales como "mantenerlo simple": ¿qué significa eso? Bueno, depende de la audiencia. Algunas audiencias se comerán el estilo Tufte. Pero algunas audiencias aprecian un poco de basura gráfica de vez en cuando. Algunas personas se aburren de los diagramas de dispersión. A algunas personas les gustan los fondos coloridos. ¿Es tan malo involucrarlos un poco, incluso si comprometes la pureza "estética"? Eso depende de ti decidir.

La reacción de tu audiencia será un importante comentario, pero no el único. Si encuentra una manera de medir su comprensión antes y después de su presentación, comenzará a comprender el impacto que ha tenido.

La respuesta "correcta" dependerá de este tipo de preguntas:

  • ¿Qué medios usarás?

  • ¿Estás creando tramas estáticas o interactivas?

  • ¿Estás tratando de contar una historia predefinida (exposición) o alentar la experimentación (exploración)?

  • ¿Hasta qué punto quiere que el público saque sus propias conclusiones?

  • ¿Hasta qué punto quiere que el público siga y se convenza de su historia?

  • ¿Hasta qué punto quiere que la audiencia desafíe sus hallazgos?

En resumen, diseñe sus materiales deliberadamente en función de su mensaje, audiencia y limitaciones.

David J.
fuente
"Participar" o distraer? El color puede estar bien, pero finalmente estás aquí sobre los datos, y la estética debería servir a los datos, y no al revés.
nada101
2

Una cosa que parece recordar que mencionó Tufte, que no está en las otras respuestas es el mapeo , es decir, hacer que la posición, la dirección, el tamaño, etc. en su gráfico representen la realidad . Lo que está arriba en el gráfico debería estar arriba en el mundo real. Lo que es grande debe ser grande (teniendo en cuenta que las áreas deben representar áreas y volúmenes volúmenes. Nunca intente representar un valor escalar por área, ¡es muy ambiguo!). Esto también se aplica a los colores, formas, etc., si son relevantes.

Un ejemplo interesante es el gráfico de la "serie de faldas" aquí: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Aunque técnicamente es correcto, y una longitud de falda "más alta" ocupa una posición más alta en el gráfico, en realidad es bastante confusa, porque la longitud de la falda comienza desde la parte superior y baja (a diferencia de los humanos o los árboles, donde medimos la altura desde el borde). suelo). Por lo tanto, el aumento de la longitud de la falda representa un valor más bajo:

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

enter image description here

Hay, como siempre, dificultades. Por ejemplo, generalmente consideramos el tiempo para avanzar, y en el oeste, al menos, leemos de izquierda a derecha, por lo que nuestros gráficos de series de tiempo también suelen fluir de izquierda a derecha a medida que aumenta el tiempo. Entonces, ¿qué sucede si desea representar algo que se representa mejor lateralmente (por ejemplo, medidas este-oeste de algo), con el tiempo? En ese caso, debe comprometerse, y retratar el tiempo de un movimiento hacia arriba o hacia abajo (lo cual depende nuevamente de las percepciones culturales, supongo), o elegir mapear su variable lateral hacia arriba / abajo en su gráfico.

nada101
fuente
1
Un ejemplo de la compensación por tiempo / espacio se encuentra en el libro Making Maps (discusión crítica y ejemplos dados aquí .
Andy W
Bonito (horrible) ejemplo! Los mapas presentan otra compensación más difícil: tratar de representar 2 dimensiones + tiempo en una página bidimensional (por ejemplo, mapas de deriva continental). Bastante difícil. Pero supongo que para eso están las animaciones :)
naught101
Su ejemplo revelador permite mencionar dos puntos adicionales que a menudo surgen. 1. Con un eje de tiempo, un título o etiqueta como "Tiempo" suele ser redundante. 2. Los títulos o etiquetas como "falda" siempre se pueden mejorar con una explicación concisa pero informativa, incluidas las unidades de medida cuando sea apropiado.
Nick Cox
1

Depende de la forma en que se discutirán las parcelas.

Por ejemplo, si estoy enviando diagramas para una reunión de grupo que se realizará con personas que llaman desde diferentes lugares, prefiero reunirlos en Powerpoint en lugar de Excel, por lo que es más fácil dar la vuelta.

Para las llamadas técnicas uno a uno, pondré algo en Excel para que el cliente pueda mover un diagrama a un lado y ver los datos sin procesar. O bien, puedo ingresar valores p en las celdas junto con los coeficientes de regresión lateral, p. Ej.

Recuerde: las tramas son baratas, especialmente para una presentación de diapositivas o para enviarlas por correo electrónico a un grupo. Prefiero hacer 10 tramas claras que podemos hojear en lugar de 5 parcelas donde trato de poner cohortes distintas (por ejemplo, "hombres y mujeres") en la misma gráfica.

Baltimark
fuente
1

I would add that the choice of plot should reflect the type of statistical test used to analyse the data. In other words, whatever characteristics of the data were used for analysis should be shown visually - so you would show means and standard errors if you used a t-test but boxplots if you used a Mann-Whitney test.

Freya Harrison
fuente