Estoy tratando de comparar visualmente cómo tres publicaciones de noticias diferentes cubren diferentes temas (determinado a través de un modelo de tema LDA). Tengo dos métodos relacionados para hacerlo, pero he recibido muchos comentarios de colegas de que esto no es muy intuitivo. Espero que alguien tenga una mejor idea para visualizar esto.
En el primer gráfico, muestro las proporciones de cada tema en cada publicación, así:
Esto es bastante sencillo e intuitivo para casi todas las personas con las que he hablado. Sin embargo, es difícil ver las diferencias entre las publicaciones. ¿Qué periódico cubre qué tema más?
Para llegar a esto, tracé la diferencia entre la publicación con la mayor y la segunda mayor proporción de temas, coloreada por la publicación con la mayor. Me gusta esto:
Entonces, la gran barra para el fútbol, por ejemplo, es realmente la distancia entre al-Ahram English y Daily News Egypt (# 2 en cobertura de fútbol), y está coloreada de rojo porque Al-Ahram es # 1. Del mismo modo, las pruebas son verdes porque Egypt Independent tiene la mayor proporción, y el tamaño de la barra es la distancia entre Egypt Independent y Daily News Egypt (# 2 nuevamente).
El hecho de que tenga que explicar que todo en dos párrafos es una señal bastante segura de que el gráfico no pasa la prueba de autosuficiencia. Es difícil saber qué sucede realmente con solo mirarlo.
¿Alguna sugerencia general sobre cómo resaltar visualmente la publicación dominante para cada tema de una manera más intuitiva?
Editar: Datos para jugar: aquí está la dput
salida de R , así como un archivo CSV .
Edición 2: Aquí hay una versión preliminar de diagrama de puntos, con los diámetros de los puntos proporcionales a la proporción del tema en el corpus (que es cómo se ordenaron originalmente los temas). Aunque todavía necesito ajustarlo un poco más, se siente mucho más intuitivo que lo que estaba haciendo antes. ¡Gracias a todos!
Respuestas:
Gracias por hacer que los datos sean accesibles y por un conjunto de datos interesante y un desafío gráfico.
Mi sugerencia principal es de un gráfico de puntos (Cleveland).
Los detalles más importantes que me gustaría enfatizar:
La superposición aquí permite y facilita la comparación.
El orden de los temas en sus pantallas parece bastante arbitrario. En ausencia de un orden natural (por ejemplo, tiempo, espacio, una variable ordenada), siempre ordenaría una de las variables para proporcionar un marco. Cuál usar podría ser una cuestión de si uno es particularmente interesante o importante, la decisión de un investigador. Otra posibilidad es ordenar en alguna medida las diferencias entre los documentos, de modo que los temas que reciben una cobertura similar se encuentren en un extremo y los que reciban una cobertura diferente en el otro extremo.
Los marcadores abiertos o los símbolos de puntos permiten que la superposición o identidad se resuelva mejor que los marcadores o símbolos cerrados o sólidos, que en el peor de los casos se oscurecen u ocultan entre sí. (Una alternativa que podría funcionar bastante bien aquí son letras como A, D y I para los tres periódicos).
Claramente hay mucho margen para mejorar mi diseño. Por ejemplo, ¿las letras son demasiado grandes y / o demasiado pesadas? Por otro lado, los encabezados deben ser fácilmente legibles, de lo contrario, el gráfico es un error.
Algunos puntos más pequeños y exigentes:
a. El rojo y el verde en su gráfico es una combinación de colores que debe evitarse. Cuando se utilizan diferentes marcadores, las opciones de color son un poco menos cruciales.
si. Las marcas horizontales en su gráfico distraen. En contraste, se necesitan líneas de cuadrícula en la mía, pero trato de hacerlas discretas usando líneas finas y claras.
Los gráficos de puntos de Cleveland deben más a
Cleveland, WS 1984. Métodos gráficos para la presentación de datos: saltos de escala completa, gráficos de puntos y registro de múltiples bases. Estadístico estadounidense 38: 270-80.
Cleveland, WS 1985. Elementos de datos gráficos. Monterey, CA: Wadsworth.
Cleveland, WS 1994. Elementos de datos gráficos. Summit, NJ: Hobart Press.
Un precursor (¡más famoso estadísticamente por un trabajo bastante diferente!) Fue
Pearson, ES 1956. Algunos aspectos de la geometría de la estadística: el uso de la presentación visual para comprender la teoría y la aplicación de la estadística matemática. Revista de la Royal Statistical Society A 119: 125-146.
Para los interesados, el gráfico se preparó en Stata después de leer en el archivo .csv con código
fuente
El diagrama de puntos de Nick Cox es probablemente el mejor para la imagen completa. Si realmente desea enfatizar la primera relación versus la segunda, aquí hay una modificación en su gráfico que compensa la barra de diferencia con la longitud de la segunda barra.
Y para una vista de imagen grande diferente, puede probar algo como un gráfico de pendiente o un gráfico de coordenadas paralelas. Las líneas pueden estar demasiado llenas aquí, pero puede funcionar si desea resaltar un subconjunto de temas.
Además, puede intentar con helpmeviz.com, que está orientado a preguntas sobre datos muy específicos, como esta.
fuente
Mi primer instinto fue sugerir una trama mosaica ; representa gráficamente cada subcategoría como un rectángulo, donde una dimensión representa el recuento total de la categoría principal y la otra dimensión representa la participación proporcional de la subcategoría. Hay un paquete R para dibujarlos , pero también es bastante sencillo hacerlo con herramientas de gráficos de nivel inferior.
Sin embargo, los gráficos de mosaico (como los gráficos de barras apiladas basadas en porcentajes) funcionan mejor si solo hay 2 o 3 categorías en la dimensión en la que desea comparar proporciones. Por lo tanto, funcionarían bien si quisiera comparar las diferencias entre los temas en la proporción de artículos que estaban en cada uno de los tres periódicos , pero no tanto para su uso previsto, comparando las diferencias entre tres periódicos en la proporción de cobertura para cada tema . ¡Una distinción sutil pero importante!
Para lo que desea enfatizar, creo que el gráfico más efectivo es uno de los más simples: un gráfico de barras agrupadas. Más gente entiende los gráficos de barras que los gráficos de puntos; de un vistazo, puede ver que está comparando cantidades de diferentes tamaños, y los valores que desea comparar están lado a lado.
Sin embargo, si realmente desea enfatizar las diferencias en la proporción, puede crear un gráfico de barras agrupado personalizado, modificado para colocar cada grupo de modo que el valor medio por categoría esté alineado con el eje, en lugar de los valores cero:
Tenga en cuenta que las barras en cada grupo todavía están alineadas para una fácil comparación de tamaño, y que la línea base de cada grupo ahora está posicionada a la izquierda del eje de acuerdo con el valor medio de ese grupo, mientras que las barras que se proyectan a la derecha del eje son equivalentes a su segundo gráfico de barras que muestra la diferencia entre las dos categorías principales.
Independientemente de si usa un gráfico de barras agrupadas estándar o un gráfico ajustado por desplazamiento como el anterior, aún podría tomar una idea de los gráficos de mosaico y hacer que el ancho de cada barra sea proporcional al recuento total de artículos para ese periódico (por lo que el tamaño de la barra es proporcional al número de artículos en ese periódico en esa categoría).
Como su estadística de prueba es una propiedad de cada comparación , no de valores individuales, no creo que sea útil escalar cada punto de datos de acuerdo con la importancia. En cambio, tendría un icono al lado de cada grupo que representa la importancia. Para la publicación académica, el estándar
*
/**
/***
tiene el beneficio de la familiaridad, pero puede ser creativo si desea mostrar el continuo completo de la estadística.fuente
¿Has probado un gráfico de burbujas? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart
Los temas individuales podrían ser círculos y cada círculo podría ser un gráfico circular del porcentaje que cada medio de comunicación cubre el tema. El tamaño del círculo podría indicar la cobertura relativa del tema. por ejemplo, si se escriben más artículos totales sobre el petróleo que sobre la cultura, entonces el círculo del aceite tiene un diámetro mayor.
fuente