¿Cómo visualizar mejor las diferencias en muchas proporciones en tres grupos?

18

Estoy tratando de comparar visualmente cómo tres publicaciones de noticias diferentes cubren diferentes temas (determinado a través de un modelo de tema LDA). Tengo dos métodos relacionados para hacerlo, pero he recibido muchos comentarios de colegas de que esto no es muy intuitivo. Espero que alguien tenga una mejor idea para visualizar esto.

En el primer gráfico, muestro las proporciones de cada tema en cada publicación, así:

Proporciones para todos los temas y publicaciones.

Esto es bastante sencillo e intuitivo para casi todas las personas con las que he hablado. Sin embargo, es difícil ver las diferencias entre las publicaciones. ¿Qué periódico cubre qué tema más?

Para llegar a esto, tracé la diferencia entre la publicación con la mayor y la segunda mayor proporción de temas, coloreada por la publicación con la mayor. Me gusta esto:

Diferencia entre el primer y segundo tema más alto

Entonces, la gran barra para el fútbol, ​​por ejemplo, es realmente la distancia entre al-Ahram English y Daily News Egypt (# 2 en cobertura de fútbol), y está coloreada de rojo porque Al-Ahram es # 1. Del mismo modo, las pruebas son verdes porque Egypt Independent tiene la mayor proporción, y el tamaño de la barra es la distancia entre Egypt Independent y Daily News Egypt (# 2 nuevamente).

El hecho de que tenga que explicar que todo en dos párrafos es una señal bastante segura de que el gráfico no pasa la prueba de autosuficiencia. Es difícil saber qué sucede realmente con solo mirarlo.

¿Alguna sugerencia general sobre cómo resaltar visualmente la publicación dominante para cada tema de una manera más intuitiva?

Editar: Datos para jugar: aquí está la dputsalida de R , así como un archivo CSV .

Edición 2: Aquí hay una versión preliminar de diagrama de puntos, con los diámetros de los puntos proporcionales a la proporción del tema en el corpus (que es cómo se ordenaron originalmente los temas). Aunque todavía necesito ajustarlo un poco más, se siente mucho más intuitivo que lo que estaba haciendo antes. ¡Gracias a todos!

Gráfica de puntos

Andrés
fuente
1
Acabo de agregar algunos datos (para R y un CSV). Todavía no he terminado de elegir buenos colores (de ahí el rojo / verde navideño), aunque soy consciente de los problemas de daltonismo :)
Andrew
1
La mención de "proporciones" es un poco una pista falsa aquí, ya que los datos no son realmente proporciones y, lo que es más importante, ninguna de las soluciones gráficas hasta ahora depende de que los datos sean proporciones. Esto es bueno porque las soluciones tienen relevancia para una amplia gama de datos, pero no se confundan.
Nick Cox
(+1) ¡Buena pregunta, que incluye un conjunto de datos descargable y un seguimiento rápido!
chl
Andrew, con respecto a tu última edición, creo que sería mejor con las líneas de cuadrícula verticales. Crean un patrón de verificación pero no agregan mucho valor, suponiendo que no le importe leer valores precisos del gráfico.
xan
Sin las líneas verticales?
Andrew

Respuestas:

18

Gracias por hacer que los datos sean accesibles y por un conjunto de datos interesante y un desafío gráfico.

Mi sugerencia principal es de un gráfico de puntos (Cleveland).

ingrese la descripción de la imagen aquí

Los detalles más importantes que me gustaría enfatizar:

  1. La superposición aquí permite y facilita la comparación.

  2. El orden de los temas en sus pantallas parece bastante arbitrario. En ausencia de un orden natural (por ejemplo, tiempo, espacio, una variable ordenada), siempre ordenaría una de las variables para proporcionar un marco. Cuál usar podría ser una cuestión de si uno es particularmente interesante o importante, la decisión de un investigador. Otra posibilidad es ordenar en alguna medida las diferencias entre los documentos, de modo que los temas que reciben una cobertura similar se encuentren en un extremo y los que reciban una cobertura diferente en el otro extremo.

  3. Los marcadores abiertos o los símbolos de puntos permiten que la superposición o identidad se resuelva mejor que los marcadores o símbolos cerrados o sólidos, que en el peor de los casos se oscurecen u ocultan entre sí. (Una alternativa que podría funcionar bastante bien aquí son letras como A, D y I para los tres periódicos).

Claramente hay mucho margen para mejorar mi diseño. Por ejemplo, ¿las letras son demasiado grandes y / o demasiado pesadas? Por otro lado, los encabezados deben ser fácilmente legibles, de lo contrario, el gráfico es un error.

Algunos puntos más pequeños y exigentes:

a. El rojo y el verde en su gráfico es una combinación de colores que debe evitarse. Cuando se utilizan diferentes marcadores, las opciones de color son un poco menos cruciales.

si. Las marcas horizontales en su gráfico distraen. En contraste, se necesitan líneas de cuadrícula en la mía, pero trato de hacerlas discretas usando líneas finas y claras.

×

Los gráficos de puntos de Cleveland deben más a

Cleveland, WS 1984. Métodos gráficos para la presentación de datos: saltos de escala completa, gráficos de puntos y registro de múltiples bases. Estadístico estadounidense 38: 270-80.

Cleveland, WS 1985. Elementos de datos gráficos. Monterey, CA: Wadsworth.

Cleveland, WS 1994. Elementos de datos gráficos. Summit, NJ: Hobart Press.

Un precursor (¡más famoso estadísticamente por un trabajo bastante diferente!) Fue

Pearson, ES 1956. Algunos aspectos de la geometría de la estadística: el uso de la presentación visual para comprender la teoría y la aplicación de la estadística matemática. Revista de la Royal Statistical Society A 119: 125-146.

Para los interesados, el gráfico se preparó en Stata después de leer en el archivo .csv con código

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 
Nick Cox
fuente
Esto es asombroso, ¡gracias! Desafortunadamente, los porcentajes no se suman a nada porque los valores son medios estandarizados de un gran corpus de documentos (es decir, cada documento en cada publicación consiste en una combinación de los 20 temas descubiertos por LDA ; esto muestra los medios normalizados ... de ahí el números pequeños)
Andrew
Además, los temas están ordenados por su proporción en el corpus. La gobernanza de Egipto es el tema que aparece con más frecuencia, mientras que los diversos son el tema más raro. Pero usar ese orden aquí hace que los puntos / símbolos sean un poco más difíciles de seguir visualmente.
Andrew
¡Esto es genial! ¡Gracias! Actualicé la publicación original para reflejar sus sugerencias y agregar proporciones de corpus.
Andrew
(+6) ¡Buena respuesta! Y siempre es bueno tener referencias y código reproducible.
chl
@chl Muchas gracias por los comentarios apreciativos y la reputación extra.
Nick Cox
14

El diagrama de puntos de Nick Cox es probablemente el mejor para la imagen completa. Si realmente desea enfatizar la primera relación versus la segunda, aquí hay una modificación en su gráfico que compensa la barra de diferencia con la longitud de la segunda barra.

ingrese la descripción de la imagen aquí

Y para una vista de imagen grande diferente, puede probar algo como un gráfico de pendiente o un gráfico de coordenadas paralelas. Las líneas pueden estar demasiado llenas aquí, pero puede funcionar si desea resaltar un subconjunto de temas.

ingrese la descripción de la imagen aquí

Además, puede intentar con helpmeviz.com, que está orientado a preguntas sobre datos muy específicos, como esta.

xan
fuente
¡Interesante! Punto de minuto: el título del eje o la etiqueta "proporción" no coincide con las unidades de%.
Nick Cox
Ooh, esto es realmente interesante. Voy a jugar con esto para ver si puede complementar el gráfico de puntos.
Andrew
2

Mi primer instinto fue sugerir una trama mosaica ; representa gráficamente cada subcategoría como un rectángulo, donde una dimensión representa el recuento total de la categoría principal y la otra dimensión representa la participación proporcional de la subcategoría. Hay un paquete R para dibujarlos , pero también es bastante sencillo hacerlo con herramientas de gráficos de nivel inferior.

Sin embargo, los gráficos de mosaico (como los gráficos de barras apiladas basadas en porcentajes) funcionan mejor si solo hay 2 o 3 categorías en la dimensión en la que desea comparar proporciones. Por lo tanto, funcionarían bien si quisiera comparar las diferencias entre los temas en la proporción de artículos que estaban en cada uno de los tres periódicos , pero no tanto para su uso previsto, comparando las diferencias entre tres periódicos en la proporción de cobertura para cada tema . ¡Una distinción sutil pero importante!

Para lo que desea enfatizar, creo que el gráfico más efectivo es uno de los más simples: un gráfico de barras agrupadas. Más gente entiende los gráficos de barras que los gráficos de puntos; de un vistazo, puede ver que está comparando cantidades de diferentes tamaños, y los valores que desea comparar están lado a lado.

Sin embargo, si realmente desea enfatizar las diferencias en la proporción, puede crear un gráfico de barras agrupado personalizado, modificado para colocar cada grupo de modo que el valor medio por categoría esté alineado con el eje, en lugar de los valores cero:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

Tenga en cuenta que las barras en cada grupo todavía están alineadas para una fácil comparación de tamaño, y que la línea base de cada grupo ahora está posicionada a la izquierda del eje de acuerdo con el valor medio de ese grupo, mientras que las barras que se proyectan a la derecha del eje son equivalentes a su segundo gráfico de barras que muestra la diferencia entre las dos categorías principales.

Independientemente de si usa un gráfico de barras agrupadas estándar o un gráfico ajustado por desplazamiento como el anterior, aún podría tomar una idea de los gráficos de mosaico y hacer que el ancho de cada barra sea proporcional al recuento total de artículos para ese periódico (por lo que el tamaño de la barra es proporcional al número de artículos en ese periódico en esa categoría).

Como su estadística de prueba es una propiedad de cada comparación , no de valores individuales, no creo que sea útil escalar cada punto de datos de acuerdo con la importancia. En cambio, tendría un icono al lado de cada grupo que representa la importancia. Para la publicación académica, el estándar */ **/ ***tiene el beneficio de la familiaridad, pero puede ser creativo si desea mostrar el continuo completo de la estadística.

AmeliaBR
fuente
La idea principal aquí es agrupar las barras verticalmente. Es un diseño muy utilizado, pero implica 60 barras verticalmente en lugar de 20 en el original del póster. Aunque puede ajustar claramente el ancho de la barra, creo que necesitará más espacio para hacerlo bien en este caso, especialmente porque desea agregar espacio entre los grupos.
Nick Cox
@NickCox Eso es una desventaja en comparación con el gráfico original más compacto, aunque podría rotar todo el gráfico 90 grados si una figura orientada al paisaje se adaptara a su diseño general.
AmeliaBR
Podría, pero 60 barras también son difíciles de izquierda a derecha, y 20 etiquetas como "Hermandad musulmana y política" tendrían que seguir siendo legibles ...
Nick Cox
Es posible que pueda hacerlo funcionar colocando las barras en un grupo una encima de la otra en lugar de una al lado de la otra. Es difícil de decir sin ver una maqueta (y mi arte ASCII no es muy bueno para transmitir apariencia). Sería menos intuitivo ya que no es una estructura tan familiar y podría generar confusión si dos barras tienen casi la misma altura. Pero si la alternativa es barras anchas de un píxel ...
AmeliaBR
Entonces, te estás acercando a la sugerencia en mi respuesta de un gráfico de puntos.
Nick Cox
1

¿Has probado un gráfico de burbujas? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

Los temas individuales podrían ser círculos y cada círculo podría ser un gráfico circular del porcentaje que cada medio de comunicación cubre el tema. El tamaño del círculo podría indicar la cobertura relativa del tema. por ejemplo, si se escriben más artículos totales sobre el petróleo que sobre la cultura, entonces el círculo del aceite tiene un diámetro mayor.

rocinante
fuente
[X,Y]
1
@NickStauner No vi la pregunta editada con el conjunto de datos cuando originalmente respondí esto. Las coordenadas no significarían mucho, sino el número de publicaciones. Los círculos se pueden agrupar por tema o por tamaño de diámetro. No sé por qué los porcentajes se usaron en primer lugar ya que los números son extremadamente pequeños.
rocinante