¿Cómo determinar si el eje y de un gráfico debe comenzar en cero?

45

Una forma común de "mentir con datos" es utilizar una escala del eje y que parezca que los cambios son más significativos de lo que realmente son.

Cuando reviso publicaciones científicas, o informes de laboratorio de los estudiantes, a menudo me siento frustrado por este "pecado de visualización de datos" (que creo que los autores cometen involuntariamente, pero aún así resulta en una presentación engañosa).

Sin embargo, "iniciar siempre el eje y en cero" no es una regla estricta. Por ejemplo, Edward Tufte señala que en una serie de tiempo, la línea de base no es necesariamente cero:

En general, en una serie temporal, use una línea de base que muestre los datos, no el punto cero. Si el punto cero ocurre razonablemente al trazar los datos, está bien. Pero no gaste mucho espacio vertical vacío tratando de llegar al punto cero a costa de ocultar lo que está sucediendo en la línea de datos. (El libro, Cómo mentir con estadísticas, está equivocado en este punto).

Por ejemplo, en todas partes, en ausencia de cero puntos en series de tiempo, eche un vistazo a cualquier publicación importante de investigación científica. Los científicos quieren mostrar sus datos, no cero.

La necesidad de contextualizar los datos es buena, pero el contexto no proviene del espacio vertical vacío que llega a cero, un número que ni siquiera aparece en muchos conjuntos de datos. En cambio, para el contexto, muestre más datos horizontalmente.

Quiero señalar una presentación engañosa en los trabajos que reviso, pero no quiero ser un purista del eje cero y.

¿Existen pautas que aborden cuándo iniciar el eje y en cero y cuándo esto es innecesario y / o inapropiado? (Especialmente en el contexto del trabajo académico).

ff524
fuente
3
Creo que si incluir (no incluir) 0 es potencialmente engañoso depende de manera crítica de la historia que se cuenta.
gung - Restablece a Monica
2
En una charla, la frase "tenga en cuenta el cero altamente suprimido" o similar se puede utilizar para aportar honestidad a una figura potencialmente engañosa. No estoy tan contento con eso en el material impreso, pero en un apuro puedes usarlo allí también.
dmckee
Para evitar todo esto, estoy usando boxplots siempre que sea posible. No es necesario calcular medias y barras de error y está repleto de información valiosa (por ejemplo, distribución de datos, dispersión, sesgo, rango), todo en un solo gráfico. Además, está mostrando los datos sin procesar.
Stefan
y=0
@ NickCox gracias por tu comentario! Estoy de acuerdo en que después de que ANOVA haya terminado de mostrar medios y barras de error tiene más sentido. Sin embargo, antes de ejecutar cualquier análisis, encuentro que los diagramas de caja son más informativos y dan información sobre cómo se ven sus datos y si el ANOVA elegido puede ser apropiado o no. "Mentir con datos" ya podría ocurrir cuando, por ejemplo, se eligen pruebas paramétricas, pero los datos no cumplen con los supuestos requeridos. Por lo tanto, para mí, como lector de estudios científicos, siempre me gusta ver diagramas de caja para decidir sobre los resultados presentados.
Stefan

Respuestas:

40
  • No utilice el espacio en un gráfico de ninguna manera que no ayude a comprender. ¡Se necesita espacio para mostrar los datos!

  • Use su juicio científico (ingeniería, médico, social, comercial, ...) así como su juicio estadístico. (Si usted no es el cliente o el cliente, hable con alguien en el campo para tener una idea de lo que es interesante o importante, preferiblemente aquellos que comisionan el análisis).

  • y

Esas son tres reglas simples. (En ocasiones, nada descarta cierta tensión entre ellos).

Aquí hay un ejemplo simple, pero surgen los tres puntos: usted mide la temperatura corporal de un paciente en grados Celsius, o en Fahrenheit, o incluso en Kelvin: elija. ¿En qué sentido es útil o lógico insistir en mostrar temperaturas cero? Importante, incluso médica o fisiológicamente crucial, la información se ocultará de otra manera.

Aquí hay una historia real de una presentación. Un investigador estaba mostrando datos sobre la proporción de sexos para varios estados y territorios de la Unión en India. El gráfico era un gráfico de barras con todas las barras comenzando en cero. Todas las barras estaban cerca de la misma longitud a pesar de alguna variación considerable. Eso fue correcto, pero la historia interesante fue que las áreas eran diferentes a pesar de las similitudes, no que fueran similares a pesar de las diferencias. Sugerí que la paridad entre hombres y mujeres (1 o 100 mujeres / 100 hombres) era un nivel de referencia mucho más natural. (También estaría dispuesto a utilizar algún nivel general, como la media nacional, como referencia). Incluso algunas personas estadísticas que han escuchado esta pequeña historia a veces han respondido: "No; las barras siempre deben comenzar en cero". Para mí eso no es mejor que un dogma irrelevante en tal caso.

yy

Un tipo común de trama, especialmente en algunas ciencias biológicas y médicas, muestra medios u otros resúmenes por barras gruesas que comienzan en cero y errores estándar o intervalos basados ​​en desviaciones estándar que indican incertidumbre por barras delgadas. Tales detonadores o gráficos de dinamita, como los han llamado aquellos que desaprueban, pueden ser populares en parte debido a la afirmación de que siempre se debe mostrar cero. El efecto neto es enfatizar las comparaciones con cero que a menudo carecen de interés o utilidad.

Algunas personas querrían mostrar cero, pero también agregar un salto de escala para mostrar que la escala está interrumpida. Las modas cambian y la tecnología cambia. Hace décadas, cuando los investigadores dibujaban sus propios gráficos o delegaban la tarea a los técnicos, era más fácil pedir que se hiciera a mano. Ahora los programas gráficos a menudo no admiten saltos de escala, lo que creo que no es una pérdida. Incluso si lo hacen, es una adición exigente que puede desperdiciar una fracción moderada del área del gráfico.

x

Naturalmente, se aplica una regla cero además de las tres mencionadas.

  • Hagas lo que hagas, sé muy claro. Etiquete sus ejes de manera consistente e informativa. Luego confía en que los lectores cuidadosos verán lo que has hecho.

Por lo tanto, en este punto, estoy totalmente de acuerdo con Edward Tufte, y no estoy de acuerdo con Darrell Huff.

EDITAR 9 de mayo de 2016:

en lugar de intentar siempre incluir un 0-basal en todos los gráficos, utilizar lógicas y significativas líneas de base en lugar

Cairo, A. 2016. The Truthful Art: Data, Charts, and Maps for Communication. San Francisco, CA: New Riders, p.136.

Nick Cox
fuente
77
Como un aparte de eso: creo que las personas son más propensas a seguir dogmáticamente con "comenzar en cero" cuando los datos están representados por barras, debido a que las barras muestran área y área es engañosa si no comienza en cero. En un diagrama de puntos de Cleveland , que a menudo es una visualización más adecuada de todos modos, parece que no hay un argumento tan convincente para comenzar en cero, y las personas parecen más dispuestas a ser flexibles sobre dónde comienzan.
Silverfish
44
Gran respuesta. Hice esta pregunta en el contexto de la revisión de un documento que usó consistentemente rangos de eje inapropiados (enfatizando variaciones insignificantes en los datos). Esta respuesta me hizo darme cuenta de que estaba realmente frustrado con la falta de juicio (estadístico e ingenieril) para comprender e interpretar los datos, algo mucho más constructivo para comentar en una revisión que quejarse sobre el rango del eje.
ff524
44
La regla sobre comenzar el eje en cero solo tiene sentido pensar en las variables continuas que son razón, por lo que cero tiene un significado real. Un peso de 0 no es peso. Etc. Pero las temperaturas en C o F usan valores arbitrarios para cero, por lo que no tiene sentido siquiera pensar en comenzar el eje allí.
Harvey Motulsky
2
3
Agradable, pero me gustaría señalar que el punto de "juicio" depende de la audiencia (¡la audiencia siempre importa!). El público técnico leerá el eje y comprenderá las implicaciones. Una cierta fracción de la población laica ignorará de manera determinada las etiquetas del eje y sacará conclusiones de la forma del gráfico bajo supuestos potencialmente incorrectos sobre la escala. Si el gráfico está destinado a un público lego, entonces debe tenerlo en cuenta a su juicio.
dmckee