¿Cómo debería dibujarse este cuadro de la BBC (correlación Brexit entre educación y resultados)?

8

La BBC ha analizado más datos del referéndum Brexit; El primer gráfico en su artículo me llamó la atención:

ingrese la descripción de la imagen aquí

Parecía extraño dividir el eje x al 50%. ¿Seguramente esto debería haberse dividido en la mediana de los datos? (O la media si los datos se distribuyeron normalmente; pero entrecerrando los ojos, ese no parece ser el caso aquí).

(No han publicado sus datos, pero un rápido google sugiere que los graduados son aproximadamente el 25% de la población adulta, y eso coincide con la tabla, así que iré con eso).

Pero eso me hizo pensar en cómo dibujar este cuadro de la manera más objetiva posible. ¿Sería mejor mantener el eje x lineal y hacer que las dos cajas de la derecha sean tres veces más anchas? ¿O mantener los cuadros del mismo tamaño y aplastar y estirar el eje x, de modo que cada intervalo de N píxeles cubra el mismo número de puntos de datos? ¿O algo mas?

Darren Cook
fuente
55
No veo ningún problema real aquí. Leave> Remain es muy pertinente para considerar el resultado. Más graduados que no es comprensible. Si se hubiera elegido un umbral diferente para este último, algunos otros lectores podrían haberse confundido. Contrariamente a una respuesta, la razón por la que no se muestran puntos de datos en un cuadrante es que ninguno pertenece allí; ¿Qué es engañoso allí? Es discutible que todo el sombreado distraiga, pero hay un intento de guiar la interpretación.
Nick Cox
44
Tenga en cuenta que, para gran sorpresa de cualquier persona con mentalidad estadística, ¡los diagramas de dispersión son ampliamente considerados en el periodismo de datos y campos relacionados como demasiado difíciles para el público en general!
Nick Cox
2
Esta trama generalmente está bien hecha, como han señalado varios. La única crítica real que llama la atención de inmediato es la superposición de los puntos en el centro: eso hace que sea difícil evaluar el número de puntos allí, lo que hace que la trama sea un poco menos útil de lo que podría ser.
whuber

Respuestas:

3

Creo que esta versión FT de datos similares sirve como una respuesta decente sobre cómo presentar los datos de manera justa.

ingrese la descripción de la imagen aquí

En lugar de absolutos en una escala de 0 a 100, se acerca para enfocarse en el cambio. Las líneas ayudan a verificar el patrón que es difícil de evaluar solo en los puntos debido a todos los excesos. (¿Cuántas de las 1070 salas puedes distinguir en el original?)

xan
fuente
1
Gracias. Me gusta esta idea: cuando la mayoría de los elementos en una parte del gráfico tienen algo en común (área geográfica, aquí), resalte todos los elementos con esa característica. (Las líneas de tendencia también funcionan muy bien en este caso.)
Darren Cook
10

Estoy de acuerdo en que colorear los cuadrantes de color rosa es en gran medida cosmético, pero en general lo veo como una trama informativa clara. El mensaje es inmediatamente aparente y no es engañoso. La BBC ha trazado los puntos de datos reales. No han manipulado los ejes x o y. La anotación en la trama es correcta y no se exagera. No han agregado líneas de tendencia espurias ni ninguna otra interpretación innecesaria. En comparación con la mayoría de las cifras de datos presentadas en los medios, esta trama es excelente: es un buen ejemplo de dejar que los datos hablen por sí mismos. En resumen, creo que lo estás pensando demasiado. No dudo que pueda encontrar algunas formas de mejorar la trama, pero lo simple suele ser lo mejor.

Gordon Smyth
fuente
44
+1 ya que estoy de acuerdo. Agregaría que dividir en mediana o media no es más arbitrario que al 50%, solo depende de qué es exactamente lo que desea mostrar.
Tim
4

Estoy de acuerdo en que el gráfico es engañoso en el sentido de que pretende mostrar que no hay puntos de datos en el cuadrante que se describe categóricamente como% de voto alto,% alto de graduados. Lo que es alto y bajo se vuelve relativo a los límites del eje, no a los datos reales. Aunque teóricamente es posible tener un barrio con una población 100% universitaria, dicho barrio no existe. No necesita inventar puntos de datos para producir un gráfico engañoso: un eje roto que muestra un cambio exagerado es un ejemplo que no es muy diferente a este.

Una forma más objetiva de visualizar estos datos sería establecer los límites del eje del diagrama de dispersión en el máximo / mínimo de los datos y luego dividir el gráfico en cuadrantes de un área igual.

La razón por la que elegiría el área igual de cuadrantes es para que los cuadrantes muestren una relación lineal equivalente entre variables. Las descripciones categóricas de los cuadrantes, "alto" y "bajo" se tratan como equivalentes, por lo que las áreas también deberían serlo.

Si, en cambio, queremos usar cuadrantes como otra forma de describir datos cuantitativamente, podríamos establecer los bordes de los cuadrantes en el promedio de cada variable como se muestra en la Visualización de datos con R: 100 ejemplos (disponibles para previsualizar en Google Books, p283,286).

Para agregar otra capa analítica a una visualización de diagrama de dispersión, podemos usar el color y el tamaño de los puntos. Por ejemplo, el color puede usarse para separar las ciudades universitarias del resto, mostrar la participación de los votantes en un gradiente o resaltar los resultados de las Elecciones Generales para esos barrios. No estoy seguro de si el tamaño será efectivo con tantos puntos de datos, pero potencialmente puede investigar diferentes bandas de población, como 65+, y cómo se representan en los datos.

En mi opinión, también hay dos advertencias importantes que vale la pena tener en cuenta al mirar este gráfico: primero, que cuenta a todos los graduados, independientemente de si votaron en el referéndum o no, y en segundo lugar, que incluye a los graduados residentes con pasaportes de la UE que no se pudo votar en el referéndum (suponiendo que la fuente de datos esté basada en el censo).

gherka
fuente
Gracias. El uso de max y min no estaría muy lejos aquí, pero con una distribución de cola larga o un valor atípico molesto (por ejemplo, podría imaginarse que una ciudad universitaria podría tener una sala que alcanza el 80% +), aún podría distorsionarse. ¿Seguiría siempre con min / max y luego cuadrantes de área par?
Darren Cook
Edité mi respuesta para explicar por qué usaría incluso las áreas en este caso. Si la distribución es de cola larga, probablemente no sería apropiado usar cuadrantes para clasificar los resultados de esta manera.
gherka
2

Estoy de acuerdo, muy engañoso. Eliminaría el fondo de color todos juntos.

Si insiste en colorearlo, ¿quizás un gradiente correspondiente a la densidad de población? Esto es, el color de fondo se oscurece a medida que más pupilos caen en la categoría "educado frente a irse"

Definitivamente hay una tendencia, no creo que nadie discuta eso, ¿tal vez el autor debería seguir una línea de tendencia de algún tipo?

Mohammad Athar
fuente
3
Estoy de acuerdo en que una línea de tendencia (probablemente curva) es una adición natural para las personas con mentalidad estadística, pero este es un gráfico en los medios de comunicación.
Nick Cox