La BBC ha analizado más datos del referéndum Brexit; El primer gráfico en su artículo me llamó la atención:
Parecía extraño dividir el eje x al 50%. ¿Seguramente esto debería haberse dividido en la mediana de los datos? (O la media si los datos se distribuyeron normalmente; pero entrecerrando los ojos, ese no parece ser el caso aquí).
(No han publicado sus datos, pero un rápido google sugiere que los graduados son aproximadamente el 25% de la población adulta, y eso coincide con la tabla, así que iré con eso).
Pero eso me hizo pensar en cómo dibujar este cuadro de la manera más objetiva posible. ¿Sería mejor mantener el eje x lineal y hacer que las dos cajas de la derecha sean tres veces más anchas? ¿O mantener los cuadros del mismo tamaño y aplastar y estirar el eje x, de modo que cada intervalo de N píxeles cubra el mismo número de puntos de datos? ¿O algo mas?
fuente
Respuestas:
Creo que esta versión FT de datos similares sirve como una respuesta decente sobre cómo presentar los datos de manera justa.
En lugar de absolutos en una escala de 0 a 100, se acerca para enfocarse en el cambio. Las líneas ayudan a verificar el patrón que es difícil de evaluar solo en los puntos debido a todos los excesos. (¿Cuántas de las 1070 salas puedes distinguir en el original?)
fuente
Estoy de acuerdo en que colorear los cuadrantes de color rosa es en gran medida cosmético, pero en general lo veo como una trama informativa clara. El mensaje es inmediatamente aparente y no es engañoso. La BBC ha trazado los puntos de datos reales. No han manipulado los ejes x o y. La anotación en la trama es correcta y no se exagera. No han agregado líneas de tendencia espurias ni ninguna otra interpretación innecesaria. En comparación con la mayoría de las cifras de datos presentadas en los medios, esta trama es excelente: es un buen ejemplo de dejar que los datos hablen por sí mismos. En resumen, creo que lo estás pensando demasiado. No dudo que pueda encontrar algunas formas de mejorar la trama, pero lo simple suele ser lo mejor.
fuente
Estoy de acuerdo en que el gráfico es engañoso en el sentido de que pretende mostrar que no hay puntos de datos en el cuadrante que se describe categóricamente como% de voto alto,% alto de graduados. Lo que es alto y bajo se vuelve relativo a los límites del eje, no a los datos reales. Aunque teóricamente es posible tener un barrio con una población 100% universitaria, dicho barrio no existe. No necesita inventar puntos de datos para producir un gráfico engañoso: un eje roto que muestra un cambio exagerado es un ejemplo que no es muy diferente a este.
Una forma más objetiva de visualizar estos datos sería establecer los límites del eje del diagrama de dispersión en el máximo / mínimo de los datos y luego dividir el gráfico en cuadrantes de un área igual.
La razón por la que elegiría el área igual de cuadrantes es para que los cuadrantes muestren una relación lineal equivalente entre variables. Las descripciones categóricas de los cuadrantes, "alto" y "bajo" se tratan como equivalentes, por lo que las áreas también deberían serlo.
Si, en cambio, queremos usar cuadrantes como otra forma de describir datos cuantitativamente, podríamos establecer los bordes de los cuadrantes en el promedio de cada variable como se muestra en la Visualización de datos con R: 100 ejemplos (disponibles para previsualizar en Google Books, p283,286).
Para agregar otra capa analítica a una visualización de diagrama de dispersión, podemos usar el color y el tamaño de los puntos. Por ejemplo, el color puede usarse para separar las ciudades universitarias del resto, mostrar la participación de los votantes en un gradiente o resaltar los resultados de las Elecciones Generales para esos barrios. No estoy seguro de si el tamaño será efectivo con tantos puntos de datos, pero potencialmente puede investigar diferentes bandas de población, como 65+, y cómo se representan en los datos.
En mi opinión, también hay dos advertencias importantes que vale la pena tener en cuenta al mirar este gráfico: primero, que cuenta a todos los graduados, independientemente de si votaron en el referéndum o no, y en segundo lugar, que incluye a los graduados residentes con pasaportes de la UE que no se pudo votar en el referéndum (suponiendo que la fuente de datos esté basada en el censo).
fuente
Estoy de acuerdo, muy engañoso. Eliminaría el fondo de color todos juntos.
Si insiste en colorearlo, ¿quizás un gradiente correspondiente a la densidad de población? Esto es, el color de fondo se oscurece a medida que más pupilos caen en la categoría "educado frente a irse"
Definitivamente hay una tendencia, no creo que nadie discuta eso, ¿tal vez el autor debería seguir una línea de tendencia de algún tipo?
fuente