En mi campo, la forma habitual de graficar datos emparejados es como una serie de segmentos de línea delgada y delgada, superpuestos con la mediana y el IC de la mediana para los dos grupos:
Sin embargo, este tipo de gráfico se vuelve mucho más difícil de leer a medida que aumenta el número de puntos de datos (en mi caso tengo del orden de 10000 pares):
Reducir el alfa ayuda un poco, pero aún no es genial. Mientras buscaba una solución, me encontré con este documento y decidí intentar implementar un 'diagrama de línea paralela'. Nuevamente, funciona muy bien para pequeños números de puntos de datos:
Pero es aún más difícil hacer que este tipo de trama se vea bien cuando el es muy grande:
Supongo que podría mostrar por separado las distribuciones para los dos grupos, por ejemplo, con diagramas de caja o violines, y trazar una línea con barras de error en la parte superior que muestre las dos medianas / CI, pero realmente no me gusta esa idea, ya que no transmitiría La naturaleza pareada de los datos.
Tampoco estoy demasiado interesado en la idea de un diagrama de dispersión 2D: preferiría una representación más compacta, e idealmente una en la que los valores para los dos grupos se tracen a lo largo del mismo eje. En aras de la exhaustividad, así es como se ven los datos como una dispersión 2D:
¿Alguien sabe de una mejor manera de representar datos emparejados con un tamaño de muestra muy grande? ¿Me podría vincular a algunos ejemplos?
Editar
Lo siento, claramente no he hecho un buen trabajo al explicar lo que estoy buscando. Sí, el diagrama de dispersión 2D funciona, y hay muchas maneras en que podría mejorarse para transmitir mejor la densidad de los puntos: podría codificar con color los puntos según una estimación de densidad del núcleo, podría hacer un histograma 2D , Podría trazar contornos en la parte superior de los puntos, etc., etc.
Sin embargo, creo que esto es excesivo para el mensaje que estoy tratando de transmitir. Realmente no me importa mostrar la densidad 2D de puntos per se , todo lo que necesito hacer es mostrar que los valores para 'barras' son generalmente más grandes que los de 'puntos', de la manera más simple y clara posible , y sin perder la naturaleza esencial emparejada de los datos. Idealmente, me gustaría trazar los valores emparejados para los dos grupos a lo largo de los mismos ejes en lugar de ejes ortogonales, ya que esto hace que sea más fácil compararlos visualmente.
Tal vez no haya una mejor opción que un diagrama de dispersión, pero me gustaría saber si hay alguna alternativa que pueda funcionar.
bar
en eldot
eje horizontal y vertical como un diagrama de dispersión?Respuestas:
Dado que entiendo su objetivo, simplemente calcularía las diferencias pareadas (
bars - dots
), luego trazaría estas diferencias en un gráfico de histograma o de estimación de densidad del núcleo. También puede agregar cualquier combinación de (1) una línea vertical correspondiente a la diferencia cero (2) cualquier elección de percentiles.Esto destacaría qué parte de los datos ha
bars
excedidodots
y, en general, cuáles son las diferencias observadas.(Supuse que no está interesado en mostrar los valores reales y sin procesar de
bars
ydots
en el mismo gráfico).También se podría trazar confianza o intervalos creíbles posteriores para indicar si estas diferencias son significativas. (¡H / T @MrMeritology!)
fuente
Gráficamente, podría mostrar las líneas como ha mostrado, con un factor alfa reducido (*), tal vez reduciendo aún más mostrando solo una muestra aleatoria de líneas. Entonces podrías colorear las líneas según la pendiente ...
Para las parcelas de Bland-Altman, mencionadas en un comentario de Nick Cox, vea, por ejemplo, un Acuerdo de ejemplo entre métodos con múltiples observaciones por individuo o mire a través de la etiqueta bland-altman-plot .
(*) el factor alfa aquí es un parámetro gráfico que hace que los puntos en la gráfica sean transparentes, por lo que los primeros puntos graficados no se ocultan totalmente por sobreplotación posterior.
fuente
Preferiría el diagrama de dispersión 2D. Dibujaría la línea de referencia en gris claro para obtener más contraste en la región abarrotada. Para aliviar el hacinamiento, dibuje los marcadores sin borde, reduzca aún más el alfa, reduzca el tamaño del marcador.
Dicho esto, si está más interesado en los pares típicos que en las alas de la distribución, intente graficar en línea la suma acumulativa de
dots
versus la suma acumulativa debars
. La trama sigue siendo 2D pero con mucho menos tinta. Para guardar también el área de trazado, puede rotar el trazado 45 ° para que el marco sirva como dirección de referencia.Ese gráfico también mostraría cualquier tendencia en los datos. Si el proceso es conocido por ser estacionario, ordenar los pares de, por ejemplo, su media geométrica,
sqrt(bars*dots)
.fuente
Recomendaría trazar las líneas como las tiene para la mediana y los cuartiles, o tantos percentiles como desee para el caso. La mediana podría permanecer más gruesa / más discernible que otras líneas de percentiles. Esto ayudaría a preservar la capacidad de ver cómo se comportan los datos a través de la distribución sin comprometer la simplicidad y familiaridad de la trama que se utiliza actualmente en su campo.
Además, con un tamaño de muestra tan alto, la tendencia media o mediana con barras de error probablemente sería suficiente, ya que disfrutaría tanto del teorema del límite central. El campo biomédico también se basa en esos gráficos de líneas emparejadas, pero este suele ser el caso porque el tamaño de la muestra podría ser del orden de 10-20, por lo que es importante visualizar los posibles puntos de apalancamiento.
fuente
Mi primera sugerencia es un diagrama de dispersión.
Si 10000 puntos distribuidos de manera desigual en su parcela siguen siendo una nube vaga, considere un mapa de calor. El color del píxel en x = 10.5, y = 11.5 indicaría cuántas veces el valor entre 10.45 y 10.55 se asigna a un valor entre 11.45 y 11.55: 0 = blanco = RGB (255,255,255), 1 = azul = RGB (0, 0,255), 2 = RGB (1,0,254), ... 256 y superior = RGB (255,0,0) = rojo
fuente