Estoy creando un gráfico para mostrar las tendencias en las tasas de mortalidad (por 1000 personas) en diferentes países y la historia que debería surgir de la trama es que Alemania (línea azul claro) es la única cuya tendencia está aumentando después de 1932. Esto es mi primer intento (básico)
En mi opinión, este gráfico ya muestra lo que queremos que diga, pero no es súper intuitivo. ¿Tiene alguna sugerencia para aclarar esa distinción entre tendencias? Estaba pensando en trazar las tasas de crecimiento, pero lo intenté y no es tan mejor.
Los datos son los siguientes
year de fr be nl den ch aut cz pl
1927 10.9 16.5 13 10.2 11.6 12.4 15 16 17.3
1928 11.2 16.4 12.8 9.6 11 12 14.5 15.1 16.4
1929 11.4 17.9 14.4 10.7 11.2 12.5 14.6 15.5 16.7
1930 10.4 15.6 12.8 9.1 10.8 11.6 13.5 14.2 15.6
1931 10.4 16.2 12.7 9.6 11.4 12.1 14 14.4 15.5
1932 10.2 15.8 12.7 9 11 12.2 13.9 14.1 15
1933 10.8 15.8 12.7 8.8 10.6 11.4 13.2 13.7 14.2
1934 10.6 15.1 11.7 8.4 10.4 11.3 12.7 13.2 14.4
1935 11.4 15.7 12.3 8.7 11.1 12.1 13.7 13.5 14
1936 11.7 15.3 12.2 8.7 11 11.4 13.2 13.3 14.2
1937 11.5 15 12.5 8.8 10.8 11.3 13.3 13.3 14
data-visualization
Doctorado
fuente
fuente
Respuestas:
A veces menos es más. Con menos detalles sobre las variaciones de año a año y las distinciones de país, puede proporcionar más información sobre las tendencias. Dado que los otros países se están moviendo principalmente juntos, puede sobrevivir sin colores separados.
Al usar un suavizador, usted requiere que el lector confíe en que no ha suavizado ninguna variación interesante.
Actualice después de recibir un par de solicitudes de código :
Hice esto en Graph Builder interactivo de JMP . El script JMP es:
));
fuente
Hay buenas respuestas aquí. Déjame tomarte la palabra de que quieres mostrar que la tendencia para Alemania difiere del resto. Los niveles frente a los cambios son una distinción común en economía. Sus datos están en niveles , pero su pregunta se indica como buscando cambios . La forma de hacerlo es establecer el nivel de referencia (aquí 1932) como . A partir de ahí, cada año sucesivo es una fracción del anterior. (Es común tomar registros para hacer cambios más estables y simétricos. Esto cambia un poco el significado de los números exactos, si realmente quieres que alguien obtenga eso de la trama, pero generalmente para este tipo de cosas, la gente quiere ser capaz de ver el patrón.) Luego obtienes una suma acumulada para cada serie y la multiplicas por100 1001 100 por convención. Eso es lo que tramas. Su caso es un poco menos común ya que su punto de referencia está en el medio de su serie, por lo que ejecuté esto en ambas direcciones desde 1932. A continuación se muestra un ejemplo simple, codificado en R (habrá muchas formas de hacer el código y trama más agradable, pero esto debería mostrar la idea directamente). Hice la línea para Alemania más gruesa para distinguirla en la leyenda, y agregué una línea de referencia en . Es fácil ver que Alemania se destaca del resto. También puede ver que todos los demás países terminan con tasas más bajas en 1937 que en 1932, y que sus cambios año tras año fluctúan mucho menos en los años posteriores a 1932 que en los años anteriores. 100
Por el contrario, a continuación se muestra una gráfica correspondiente de los datos en niveles. Sin embargo, traté de hacer posible ver que Alemania solo sube después de 1932 de dos maneras: puse un punto destacado en cada serie en 1932, y dibujé una tenue línea gris a través de la trama en el fondo en esos niveles.
fuente
Hay muchas buenas ideas aquí en otras respuestas, pero no agotan las buenas soluciones que son posibles. El primer gráfico en esta respuesta supone que los diferentes niveles de tasa de mortalidad se pueden discutir y explicar por separado. Al permitir que cada serie ocupe gran parte del espacio disponible, enfoca la atención de los lectores en patrones de cambio relativo.
Por lo general, el orden alfabético por país es un error de tonto, y no se insiste aquí. Afortunadamente, y afortunadamente, Alemania como de está en el centro de esta pantalla de 3 x 3. Una narración simple: ¡Mira! El patrón de Alemania es excepcional con un repunte desde 1932: es posible y plausible.
Afortunadamente, pero afortunadamente, 9 países son suficientes para justificar el intento de paneles separados, pero no demasiados para hacer que ese diseño sea impracticable (con, digamos, 30 y ciertamente 300 paneles, podría (habría) demasiados paneles para escanear, cada uno demasiado pequeño para escudriñar).
Evidentemente, hay mucho espacio aquí para nombres de países más completos. (En algunas otras respuestas, las leyendas ocupan una gran parte del espacio disponible, sin dejar de ser un poco crípticas. En la práctica, las personas interesadas en dichos datos encontrarán que las abreviaturas de los países son fáciles de descifrar, pero a menudo se necesita una leyenda problema molesto en el diseño gráfico).
Código Stata para el registro:
EDITAR:
Una mejora simple de este gráfico sugerido por Tim Morris es resaltar el año en que ocurrió el máximo:
EDIT 2 (revisado para mostrar código más simple):
Alternativamente, este próximo diseño muestra cada serie por separado, pero cada vez con la otra serie como telón de fondo. La idea general se discute dentro de este hilo relacionado .
Aquí hay pérdida y ganancia. Si bien cada serie se puede ver más fácilmente en el contexto de otras, el espacio se pierde por la repetición.
Código Stata para el registro:
(Código de
input
,reshape
,rename
como anteriormente en esta respuesta)fabplot
debe entenderse comof
ront uf
oregrounda
ndb
ackdrop ob
ackground plot, no como un eco de la jerga de 1960 para "fabuloso".fuente
year
como título del eje x (¿quién lo necesita? Agregaré que a un usuario de Stata la estructura de datos naturales sería una que no obligara arename
yreshape
. pero tiene paneles distintos (aquí países) como bloques distintos de observaciones.Su gráfico es razonable, pero requeriría cierto refinamiento, incluido un título, etiquetas de eje y etiquetas completas de país. Si su objetivo es enfatizar el hecho de que Alemania fue el único país con un aumento en la tasa de mortalidad durante el período de observación, entonces una forma simple de hacerlo sería resaltar esta línea en la trama, ya sea usando una línea más gruesa, una diferente tipo de línea o transparencia alfa. También puede aumentar su diagrama de series de tiempo con un diagrama de barras que muestra el cambio en la tasa de mortalidad a lo largo del tiempo, de modo que la complejidad de las líneas de series de tiempo se reduzca a una sola medida de cambio.
Así es como se podría producir estas parcelas utilizando
ggplot
enR
:Esto lleva a las siguientes parcelas:
Nota: Soy consciente de que el OP tenía la intención de resaltar el cambio en la tasa de mortalidad desde 1932, cuando la tendencia en Alemania comenzó a subir. Esto me parece un poco como recoger cerezas, y me parece dudoso cuando se eligen intervalos de tiempo para obtener una tendencia particular. Por esta razón, he analizado el intervalo en todo el rango de datos, que es una comparación diferente con el OP.
fuente
Aunque el objetivo declarado es mostrar los cambios, aparentemente también desea mostrar las series temporales anuales por país. Eso sugiere no rehacer completamente el gráfico, sino solo modificarlo.
Dado que un cambio se refiere a lo que sucede de un año al siguiente, puede considerar representar los cambios mediante símbolos gráficos que abarcan años sucesivos: es decir, los segmentos de línea que conectan los puntos de datos en el gráfico.
Dado que el color es muy útil para distinguir países, y de lo contrario no es tan bueno para indicar variables cuantitativas, eso nos deja esencialmente con otras dos características que se pueden variar para indicar el cambio: el estilo y el grosor de los segmentos. Debido a que su tesis se refiere a un cambio positivo, querrá hacer que los segmentos de línea para los aumentos sean más prominentes: sus estilos deben ser más continuos y más gruesos.
Finalmente, su tesis se refiere a datos posteriores a 1932. Queremos enfatizar esos elementos del gráfico en relación con los demás. Eso se puede hacer saturando el color.
Esta solución proporciona de inmediato ideas que no eran aparentes en el original:
Ningún país experimentó aumentos anuales en las tasas de mortalidad durante todos los años posteriores a 1932. Cualquiera de esos países aparecería como una línea continua continua, pero no existe dicha línea.
Gran parte del cambio debería atribuirse a factores comunes a todos los países. Esto es evidente en las similitudes de estilo de línea y grosor dentro de columnas verticales. Por ejemplo, durante el período 1934-35 las tasas de mortalidad aumentaron en casi todos los países, donde en 1933-34 disminuyeron en casi todos los países.
Alemania fue inusual al experimentar un gran aumento en las tasas de mortalidad en 1932-33 y también un ligero aumento en 1935-36.
Estos sugieren realizar una exploración bidireccional robusta del cambio en la tasa de mortalidad versus el país, tal vez por medio de polaco, para penetrar más profundamente en el rendimiento relativo de los países europeos durante este período.
Si desea enfatizar solo la diferencia entre 1937 y 1932, se puede usar una técnica similar para simbolizar las porciones de los caminos entre esas fechas. Alemania se destacaría:
fuente
Slopegraphs
Una forma de presentar sus datos es utilizando un gráfico de pendiente que es particularmente bueno para comparar cambios o gradientes (algunos enlaces: 1 2 )
A continuación es
A la izquierda, un ejemplo de un gráfico de pendiente que muestra cómo se ve esto para su caso.
En el centro, un gráfico de pendiente más complejo que también muestra el año 1932.
A la derecha, una variación del gráfico de pendiente, más una especie de minigráficos, donde se muestran todos los datos (lo que significa que no hay líneas rectas).
No estoy seguro de cuál es el mejor. La tercera opción / derecha proporciona una idea más clara sobre las variaciones de un año a otro (y, por ejemplo, se hace más visible que Danmark vs Alemania no se ven tan diferentes y está subiendo y bajando mucho de un año a otro) pero puede También será una distracción (especialmente el pico de 1929). Entonces, cuál es mejor depende de lo que quieras transmitir con el gráfico y de la cantidad de detalles que requiera tu historia (por ejemplo, el giro alrededor de 1932 con el gobierno diferente, que es más claro en la segunda opción).
La variación del gráfico de pendiente de la derecha se parece mucho al gráfico de Xan. Sin embargo, además de las diferencias estilísticas, hay una diferencia más importante. El ancho y la altura de la figura se eligen de tal manera que el ángulo de las curvas sea cercano a 45 grados. De esta manera, las diferencias son más notables (creo que el mejor ejemplo es el ejemplo de manchas solares de Edward Tufte )
Más contexto
Si desea agregar más complejidad que el gráfico de pendiente simple, entonces creo que en realidad es mejor mostrar más datos fuera del rango 1927-1937 que dentro del rango. (de nuevo, un ejemplo de Tufte de las páginas 74-75 en The Visual Display of Quantitive Information que puede obtener a través de esta página en el tablón de anuncios de su sitio web)
El siguiente ejemplo muestra datos para los años 1900-2000 (excluyendo Polonia, cuyos datos son un poco difíciles) extraídos de wikipedia (por ejemplo, esta página para la República Checa ) y para Suiza y los Países Bajos sus oficinas nacionales de estadísticas ( bfs y Statline ).
(Los datos son un poco diferentes de los suyos, pero son los mismos que, por ejemplo, el artículo "Autarquía, desintegración del mercado y salud: la mortalidad y la crisis nutricional en la Alemania nazi, 1933-1937" por Jörg Baten y Andrea Wagner. Este artículo es interesante leer, ya que proporcionan muchos más datos que solo las tasas brutas de mortalidad, aunque también se limitan a un pequeño período. Especialmente interesante es que el aumento de la tasa de mortalidad, de 1932 a 1937, existió principalmente entre las ciudades en una franja de Frankfurt a Bremen y Hamburgo)
Creo que este gráfico es importante porque muestra que Alemania tuvo una caída muy fuerte antes del aumento después de 1932. Más fuerte que otros países. Entonces puedes tener interpretaciones negativas y positivas. La tasa de mortalidad de Alemania aumentó más que otros países entre 1932 y 1937, pero ¿fue esto (1) un aumento desde un pico bajo o (2) un aumento hacia un pico alto? Un aspecto interesante a este respecto es que el nivel de 10.8 de 1932 es un nivel muy bajo para Alemania (en este punto, solo los Países Bajos tenían una tasa de mortalidad más baja). Este no es solo el nivel más bajo para los años hasta 1937, sino que también lleva hasta 1995 antes de que se alcance nuevamente este nivel de 10.8.
Otro punto, relacionado con la salud (si este es su contexto) podría ser mejor comparar la esperanza de vida, la composición demográfica de la población influye en la tasa de mortalidad, independientemente de los cambios en la situación de salud.
Un poco menos de contexto adicional
El gráfico anterior muestra la totalidad, pero puede ser una exageración para la mayoría de los propósitos (excepto en esta publicación donde quería mostrar toda la historia y es más para un propósito exploratorio). El siguiente gráfico es una alternativa que, creo, sigue siendo decente.
fuente
Depende de la audiencia, pero simplificaría las cosas:
Luego deletrearlo en el título, por ejemplo
(Por cierto, ¿qué es ch vs. cz, es decir, qué país me falta más arriba?)
Para ser exhaustivo, por supuesto, tendrá que sopesar
death rate
una estimación de la población al 'agrupar' esto para los 'Otros', pero estoy seguro de que esta información está disponible para usted.Actualización 6/9/18: Este es, por supuesto, un boceto de "juguete" y no se deriva de los datos; la idea es proporcionar un borrador de la forma que debe tomar un gráfico.
o mejor, si tienes información de población. por cada año:
Dependiendo de los lectores (por ejemplo, epidemiólogos versus historiadores), se podría agregar una desviación estándar o un error estándar a este último, aunque creo que esto estropearía el aspecto simple de la trama.
fuente
ch
es Suiza (Y, por cierto, todavía no era la República Checa en los años 30). Lo que no me gusta de su enfoque es que no está claro que la tendencia a la baja sea consistente en los demás países. Puede parecer que solo hay fluctuaciones aleatorias que suceden en promedio a algo negativo en los otros países, pero resultan positivas en Alemania.Si desea resaltar el cambio, entonces quizás calcule esto y muestre eso. El uso de un mapa de calor para mostrar los cambios puede ser útil, ya que permite realizar comparaciones sin problemas de superposición y evita problemas de interpolación que pueden provenir de gráficos de líneas.
Usando sus datos como
d
en R:Tenga en cuenta que los datos ahora cambian con respecto al año anterior. Puede ver que Alemania tiene un grupo de azules (aumentos en las tasas de mortalidad) después de 1932 que otros países no tienen. También puede ver que entre 1934 y 1935 todos los países, excepto Polonia, registraron aumentos en las tasas de mortalidad, pero la tendencia de Alemania parece ser 1932-1933 y 1935-1936 (así como 1927-1928).
Una característica interesante es el hecho de que los colores son más intensos a la izquierda que a la derecha. Esto significa que la magnitud de los cambios fue mayor al comienzo del período y más silenciada hacia el final.
Recomendaría emparejar esto con un gráfico lineal que muestre los niveles también.
fuente
Aquí les muestro la diferencia del logaritmo de la proporción de muertes por 1000 habitantes, con respecto al año anterior (por lo tanto, no se muestra 1927). Alemania se muestra en rojo, mientras que el promedio de otros países se muestra en la gruesa línea negra.
Alemania tuvo aumentos en la proporción en 5 de cada 10 años. Después de 1932, fue superior al promedio de otros países (y en su mayoría positivo), hasta 1937.
Aunque ¿por qué el logaritmo? La razón es simple: el cambio de 2 a 1 es más drástico que el cambio de 1000 a 999 :)
Código:
fuente
Una versión más: proporciones (tasa de mortalidad promedio de 1927 al año actual) / (tasa de mortalidad de 1927)
Hecho con el código de Mathematica
(Los picos en 1929 parecen estar relacionados con una pandemia de gripe que ocurrió alrededor de esa época)
fuente