Visualización y sobreplotting: alternativa a los scatters

8

Tengo un gran conjunto de datos de países que están llenos (como puede ver a continuación), pero necesito las etiquetas y los valores atípicos: también tengo muchos gráficos, por lo que sería tedioso restablecer la ventana y agregar puntos de datos falsos para los atípicos.

¿Existe una buena alternativa a un diagrama de dispersión que podría ser mejor en tal situación? Realmente me gustaría hacer un mapa, pero necesito que se muestren ambas partes del par ordenado.

ingrese la descripción de la imagen aquí

arebearit
fuente
1
Esto me parece difícil de responder en su forma actual. ¿Puede proporcionar más información sobre su situación, sus datos y sus objetivos? ¿Cuáles son las variables? ¿Solo necesita identificar los valores atípicos de alguna manera (p. Ej., Un enfoque basado en la no visualización estaría bien)? ¿Que software estas usando? ¿Solo estás pidiendo un código? (Si es así, la pregunta sería fuera de tema aquí.) Etc.
Gung - Restablecer Mónica
Hay software (en R, creo) que intentará colocar etiquetas para que no se sobreploten. Además, si tiene todas las etiquetas, no necesita los puntos, ¡la etiqueta hará el trabajo! Pruebe con un tamaño de fuente más pequeño, e incluso tal vez con fuentes que se puedan ver, no recuerde el nombre, debería ser posible en R, variando la transparencia. Echa un vistazo a ggplot2, o F Harrells Design, tal vez algo allí.
kjetil b halvorsen

Respuestas:

13

Un par de técnicas se demuestran en esta trama que hice hace unos meses.

  1. Solo etiquete los puntos "interesantes" y confíe en una etiqueta flotante para identificar otros puntos a pedido. Esto requiere intervención humana para que funcione bien, aunque el software puede acercarse a la heurística, como mostrar solo etiquetas cuando se pueden mostrar sin superposición.

  2. Transforme la escala, como con registros o cuantiles. La advertencia aquí es que la escala ya no está directamente alineada con nuestra percepción. El espectador tiene que tener en cuenta la transformación.

ingrese la descripción de la imagen aquí

Otras opciones:

  1. Use enrejados o pequeños múltiplos . Es decir, muestre una serie de gráficos, cada uno con un subconjunto de puntos, como un gráfico para cada región para los datos de su país.

  2. Use gráficos vinculados de una sola variable, como barras o gráficos de puntos, de modo que la etiqueta esté en el eje. Ayuda si puede ordenar por cualquiera de las variables de forma interactiva.

ingrese la descripción de la imagen aquí

xan
fuente
Me encanta la trama en la cima; ¿Liberaste el código en alguna parte? "Es decir, mostrar una serie de gráficos, cada uno con un subconjunto de puntos, como un gráfico para cada región para los datos de su país" es un buen punto: Nick Cox tiene una excelente respuesta en alguna parte, que muestra cómo se puede hacer esto en Stata (creo que escribió un paquete para ello). Veré si puedo rastrearlo y vincularlo.
Silverfish
Gracias @Silverfish! Hice el diagrama de dispersión de manera interactiva en JMP (producto de mi empresa) con las etiquetas sintonizadas a mano y las partes rosas agregadas mediante programación. Peligros de "publicar" en Twitter: necesito publicarlo en algún lugar con un poco más de explicación, datos y guiones. Seguiré con un enlace aquí si tengo éxito.
xan
1
@Silverfish Puede estar pensando en publicaciones en Statalist, por ejemplo, statalist.org/forums/forum/general-stata-discussion/general/…
Nick Cox
1
Los datos y los scripts para mi primer gráfico están en community.jmp.com/docs/DOC-7108 .
xan
@Nick Cox ¡Eso es correcto! Bueno, en realidad creo que lo vi en: Cox, NJ 2010, "Graficando subconjuntos", The Stata Journal , 10 : 670-681. Pero los gráficos en color en esa publicación Statalist en realidad lo hacen aún más claro. El enlace al artículo de la revista es www.stata-journal.com/sjpdf.html?articlenum=gr0046 (sospecho que el signo de interrogación impide que aparezca como un hipervínculo)
Silverfish
5

Si desea una alternativa a un diagrama de dispersión, puede funcionar un diagrama de coordenadas paralelas , particularmente si está tratando de mostrar la relación entre muchas variables. "Tienes muchos gráficos", ¡y un diagrama de coordenadas paralelas podría reducirlo a uno! Aquí hay un ejemplo sobre el famoso conjunto de datos Iris , tomado de Wikipedia ( crédito de imagen ):

Gráfico de coordenadas paralelas para datos de iris

La gráfica muestra la variación entre especies muy claramente. En su lugar, puede elegir colorear por región geográfica o nivel de desarrollo. Podemos ver lo difícil que es distinguir las tres especies según el ancho del sépalo, pero hay más separación en la longitud de sus pétalos. Después de un poco de ajuste mental (nuestros ojos pueden estar demasiado entrenados para buscar una "pendiente ascendente"), obviamente existe una correlación positiva entre el ancho y la longitud del pétalo porque los anchos de pétalos más altos están asociados con longitudes de pétalos más altas. Las flores en la parte superior de la escala para una, tienden a estar en la parte superior de la escala para la otra, esto se manifiesta en líneas más o menos paralelas que se extienden entre los ejes. Por otro lado, existe una correlación negativa entre el ancho y la longitud del sépalo,

La imagen logra capturar gran parte de la información disponible en una matriz completa de diagramas de dispersión ( crédito de imagen ):

Matriz de dispersión para datos de iris

En el lado positivo, la gráfica de eje paralelo nos da la capacidad de seguir a un individuo a través de todas las variables medidas: si vemos dos puntos interesantes en dos diagramas de dispersión separados, particularmente valores atípicos, puede no ser evidente si representan al mismo individuo, pero en un diagrama de eje paralelo podemos simplemente "seguir el hilo". En el lado negativo, deshacerse de todos esos diagramas de dispersión arroja información sobre las relaciones multivariadas. Obviamente, no podemos ver algunos detalles del agrupamiento con tanta claridad (aunque tenga en cuenta que Nick Cox recomienda gráficos de coordenadas paralelas con el propósito de investigar cómo el agrupamiento "profundo" atraviesa las variables) y las posibilidades de discriminación lineal están completamente oscurecidas. Además, puede ser difícil ver correlaciones entre ejes que están muy separados en el gráfico de coordenadas paralelas,

Si tienes la opción de interactividad, en lugar de una visualización estática, las gráficas de coordenadas paralelas le ofrecen algunas opciones para evitar esto. Por ejemplo, un usuario puede cambiar el orden de los ejes, colocando las variables una al lado de la otra para ver la relación de interés más claramente. Debido a que la correlación positiva y negativa se comporta de manera tan diferente en un gráfico de coordenadas paralelas, es útil poder voltear un eje (si invierte la dirección de un eje que tiene correlación negativa con un eje adyacente, entonces las líneas entre ellos se "desenredan" ) Incluso en un diagrama estático, es más efectivo invertir los ejes para producir tantas correlaciones positivas como sea posible, y ordenar los ejes para hacer que las correlaciones consecutivas sean lo más fuertes posible, ya que es difícil seguir un hilo a través de un enredo (ver Nick Cox en este punto).

Quizás la característica interactiva más importante es el cepillado y la vinculación : el usuario puede seleccionar, por ejemplo, el cuartil superior de las personas en función de una variable, y sus líneas se resaltan automáticamente en todo el diagrama. Si en otro eje, los puntos en su mayoría alrededor de la parte superior están resaltados, entonces esto sugiere una correlación positiva (pero debemos verificar si el cuartil inferior está asociado con puntos alrededor de la parte inferior de la segunda variable); Si los puntos que se encuentran principalmente en la parte inferior están resaltados, sugiere una correlación negativa; Si se resalta una selección de puntos dispersos aleatoriamente en todo el eje, sugiere poca correlación.

Con la cantidad de países que incluye, parece difícil etiquetarlos a todos en cualquier parcela a menos que tenga limitaciones de espacio inusualmente generosas. Puede que tenga que conformarse con resaltar solo los países individuales más importantes. En una visualización interactiva, las etiquetas flotantes pueden evitar el desorden (como señala @xan) y quizás podría permitir a los usuarios resaltar todos los países de una región determinada (o alguna otra agrupación) que pueda mostrar automáticamente sus etiquetas.

Si solo usa un número limitado de etiquetas, un lugar que podría considerar colocarlas es en los ejes mismos. Si miras La pantalla visual de información cuantitativa de Edward Tufte , Capítulo 7: Elementos gráficos multifuncionales, verás que esto se parece mucho a la sugerencia de Tufte de lo que llamó un "gráfico de tabla" para los recibos de impuestos del gobierno ( puede ser más familiar para usted como un "gráfico de pendiente") Cada eje se convierte en una especie de tabla de clasificación, que es una buena característica. (Existen algunas diferencias entre los enfoques, particularmente dado que el ejemplo gráfico de tabla de Tufte usaba las mismas unidades y escalas en cada eje, en lugar de normalizar los datos para ajustarse, y dado que sus "ejes" representaban un período de tiempo anterior y posterior, el las pendientes tenían una interpretación adicional como tasa de crecimiento. Estas interpretaciones generalmente no son válidas para una gráfica de coordenadas paralelas, pero la idea de una tabla de clasificación en cada eje sí.)

Enlaces y referencias

Lepisma
fuente
1
+1. Gracias por la mención Tenga en cuenta que combinar rojo y verde crea un desafío para muchas personas, ¡especialmente cuando el símbolo es el mismo! Rojo, azul y negro funcionarían mejor.
Nick Cox
@ Nick Sí, pensé que estas no eran muy buenas parcelas de ejemplo en ese frente, solo las tomé prestadas porque tienen licencia libre (en Wikipedia). Si puedo encontrar mejores ejemplos con licencia gratuita, los reemplazaría (o si tengo un poco de tiempo para hacer los míos).
Silverfish