Una forma común de "mentir con datos" es utilizar una escala del eje y que parezca que los cambios son más significativos de lo que realmente son.
Cuando reviso publicaciones científicas, o informes de laboratorio de los estudiantes, a menudo me siento frustrado por este "pecado de visualización de datos" (que creo que los autores cometen involuntariamente, pero aún así resulta en una presentación engañosa).
Sin embargo, "iniciar siempre el eje y en cero" no es una regla estricta. Por ejemplo, Edward Tufte señala que en una serie de tiempo, la línea de base no es necesariamente cero:
En general, en una serie temporal, use una línea de base que muestre los datos, no el punto cero. Si el punto cero ocurre razonablemente al trazar los datos, está bien. Pero no gaste mucho espacio vertical vacío tratando de llegar al punto cero a costa de ocultar lo que está sucediendo en la línea de datos. (El libro, Cómo mentir con estadísticas, está equivocado en este punto).
Por ejemplo, en todas partes, en ausencia de cero puntos en series de tiempo, eche un vistazo a cualquier publicación importante de investigación científica. Los científicos quieren mostrar sus datos, no cero.
La necesidad de contextualizar los datos es buena, pero el contexto no proviene del espacio vertical vacío que llega a cero, un número que ni siquiera aparece en muchos conjuntos de datos. En cambio, para el contexto, muestre más datos horizontalmente.
Quiero señalar una presentación engañosa en los trabajos que reviso, pero no quiero ser un purista del eje cero y.
¿Existen pautas que aborden cuándo iniciar el eje y en cero y cuándo esto es innecesario y / o inapropiado? (Especialmente en el contexto del trabajo académico).
fuente
Respuestas:
No utilice el espacio en un gráfico de ninguna manera que no ayude a comprender. ¡Se necesita espacio para mostrar los datos!
Use su juicio científico (ingeniería, médico, social, comercial, ...) así como su juicio estadístico. (Si usted no es el cliente o el cliente, hable con alguien en el campo para tener una idea de lo que es interesante o importante, preferiblemente aquellos que comisionan el análisis).
Esas son tres reglas simples. (En ocasiones, nada descarta cierta tensión entre ellos).
Aquí hay un ejemplo simple, pero surgen los tres puntos: usted mide la temperatura corporal de un paciente en grados Celsius, o en Fahrenheit, o incluso en Kelvin: elija. ¿En qué sentido es útil o lógico insistir en mostrar temperaturas cero? Importante, incluso médica o fisiológicamente crucial, la información se ocultará de otra manera.
Aquí hay una historia real de una presentación. Un investigador estaba mostrando datos sobre la proporción de sexos para varios estados y territorios de la Unión en India. El gráfico era un gráfico de barras con todas las barras comenzando en cero. Todas las barras estaban cerca de la misma longitud a pesar de alguna variación considerable. Eso fue correcto, pero la historia interesante fue que las áreas eran diferentes a pesar de las similitudes, no que fueran similares a pesar de las diferencias. Sugerí que la paridad entre hombres y mujeres (1 o 100 mujeres / 100 hombres) era un nivel de referencia mucho más natural. (También estaría dispuesto a utilizar algún nivel general, como la media nacional, como referencia). Incluso algunas personas estadísticas que han escuchado esta pequeña historia a veces han respondido: "No; las barras siempre deben comenzar en cero". Para mí eso no es mejor que un dogma irrelevante en tal caso.
Un tipo común de trama, especialmente en algunas ciencias biológicas y médicas, muestra medios u otros resúmenes por barras gruesas que comienzan en cero y errores estándar o intervalos basados en desviaciones estándar que indican incertidumbre por barras delgadas. Tales detonadores o gráficos de dinamita, como los han llamado aquellos que desaprueban, pueden ser populares en parte debido a la afirmación de que siempre se debe mostrar cero. El efecto neto es enfatizar las comparaciones con cero que a menudo carecen de interés o utilidad.
Algunas personas querrían mostrar cero, pero también agregar un salto de escala para mostrar que la escala está interrumpida. Las modas cambian y la tecnología cambia. Hace décadas, cuando los investigadores dibujaban sus propios gráficos o delegaban la tarea a los técnicos, era más fácil pedir que se hiciera a mano. Ahora los programas gráficos a menudo no admiten saltos de escala, lo que creo que no es una pérdida. Incluso si lo hacen, es una adición exigente que puede desperdiciar una fracción moderada del área del gráfico.
Naturalmente, se aplica una regla cero además de las tres mencionadas.
Por lo tanto, en este punto, estoy totalmente de acuerdo con Edward Tufte, y no estoy de acuerdo con Darrell Huff.
EDITAR 9 de mayo de 2016:
Cairo, A. 2016. The Truthful Art: Data, Charts, and Maps for Communication. San Francisco, CA: New Riders, p.136.
fuente