Tengo un gran conjunto de datos de países que están llenos (como puede ver a continuación), pero necesito las etiquetas y los valores atípicos: también tengo muchos gráficos, por lo que sería tedioso restablecer la ventana y agregar puntos de datos falsos para los atípicos.
¿Existe una buena alternativa a un diagrama de dispersión que podría ser mejor en tal situación? Realmente me gustaría hacer un mapa, pero necesito que se muestren ambas partes del par ordenado.
data-visualization
arebearit
fuente
fuente
Respuestas:
Un par de técnicas se demuestran en esta trama que hice hace unos meses.
Solo etiquete los puntos "interesantes" y confíe en una etiqueta flotante para identificar otros puntos a pedido. Esto requiere intervención humana para que funcione bien, aunque el software puede acercarse a la heurística, como mostrar solo etiquetas cuando se pueden mostrar sin superposición.
Transforme la escala, como con registros o cuantiles. La advertencia aquí es que la escala ya no está directamente alineada con nuestra percepción. El espectador tiene que tener en cuenta la transformación.
Otras opciones:
Use enrejados o pequeños múltiplos . Es decir, muestre una serie de gráficos, cada uno con un subconjunto de puntos, como un gráfico para cada región para los datos de su país.
Use gráficos vinculados de una sola variable, como barras o gráficos de puntos, de modo que la etiqueta esté en el eje. Ayuda si puede ordenar por cualquiera de las variables de forma interactiva.
fuente
Si desea una alternativa a un diagrama de dispersión, puede funcionar un diagrama de coordenadas paralelas , particularmente si está tratando de mostrar la relación entre muchas variables. "Tienes muchos gráficos", ¡y un diagrama de coordenadas paralelas podría reducirlo a uno! Aquí hay un ejemplo sobre el famoso conjunto de datos Iris , tomado de Wikipedia ( crédito de imagen ):
La gráfica muestra la variación entre especies muy claramente. En su lugar, puede elegir colorear por región geográfica o nivel de desarrollo. Podemos ver lo difícil que es distinguir las tres especies según el ancho del sépalo, pero hay más separación en la longitud de sus pétalos. Después de un poco de ajuste mental (nuestros ojos pueden estar demasiado entrenados para buscar una "pendiente ascendente"), obviamente existe una correlación positiva entre el ancho y la longitud del pétalo porque los anchos de pétalos más altos están asociados con longitudes de pétalos más altas. Las flores en la parte superior de la escala para una, tienden a estar en la parte superior de la escala para la otra, esto se manifiesta en líneas más o menos paralelas que se extienden entre los ejes. Por otro lado, existe una correlación negativa entre el ancho y la longitud del sépalo,
La imagen logra capturar gran parte de la información disponible en una matriz completa de diagramas de dispersión ( crédito de imagen ):
En el lado positivo, la gráfica de eje paralelo nos da la capacidad de seguir a un individuo a través de todas las variables medidas: si vemos dos puntos interesantes en dos diagramas de dispersión separados, particularmente valores atípicos, puede no ser evidente si representan al mismo individuo, pero en un diagrama de eje paralelo podemos simplemente "seguir el hilo". En el lado negativo, deshacerse de todos esos diagramas de dispersión arroja información sobre las relaciones multivariadas. Obviamente, no podemos ver algunos detalles del agrupamiento con tanta claridad (aunque tenga en cuenta que Nick Cox recomienda gráficos de coordenadas paralelas con el propósito de investigar cómo el agrupamiento "profundo" atraviesa las variables) y las posibilidades de discriminación lineal están completamente oscurecidas. Además, puede ser difícil ver correlaciones entre ejes que están muy separados en el gráfico de coordenadas paralelas,
Si tienes la opción de interactividad, en lugar de una visualización estática, las gráficas de coordenadas paralelas le ofrecen algunas opciones para evitar esto. Por ejemplo, un usuario puede cambiar el orden de los ejes, colocando las variables una al lado de la otra para ver la relación de interés más claramente. Debido a que la correlación positiva y negativa se comporta de manera tan diferente en un gráfico de coordenadas paralelas, es útil poder voltear un eje (si invierte la dirección de un eje que tiene correlación negativa con un eje adyacente, entonces las líneas entre ellos se "desenredan" ) Incluso en un diagrama estático, es más efectivo invertir los ejes para producir tantas correlaciones positivas como sea posible, y ordenar los ejes para hacer que las correlaciones consecutivas sean lo más fuertes posible, ya que es difícil seguir un hilo a través de un enredo (ver Nick Cox en este punto).
Quizás la característica interactiva más importante es el cepillado y la vinculación : el usuario puede seleccionar, por ejemplo, el cuartil superior de las personas en función de una variable, y sus líneas se resaltan automáticamente en todo el diagrama. Si en otro eje, los puntos en su mayoría alrededor de la parte superior están resaltados, entonces esto sugiere una correlación positiva (pero debemos verificar si el cuartil inferior está asociado con puntos alrededor de la parte inferior de la segunda variable); Si los puntos que se encuentran principalmente en la parte inferior están resaltados, sugiere una correlación negativa; Si se resalta una selección de puntos dispersos aleatoriamente en todo el eje, sugiere poca correlación.
Con la cantidad de países que incluye, parece difícil etiquetarlos a todos en cualquier parcela a menos que tenga limitaciones de espacio inusualmente generosas. Puede que tenga que conformarse con resaltar solo los países individuales más importantes. En una visualización interactiva, las etiquetas flotantes pueden evitar el desorden (como señala @xan) y quizás podría permitir a los usuarios resaltar todos los países de una región determinada (o alguna otra agrupación) que pueda mostrar automáticamente sus etiquetas.
Si solo usa un número limitado de etiquetas, un lugar que podría considerar colocarlas es en los ejes mismos. Si miras La pantalla visual de información cuantitativa de Edward Tufte , Capítulo 7: Elementos gráficos multifuncionales, verás que esto se parece mucho a la sugerencia de Tufte de lo que llamó un "gráfico de tabla" para los recibos de impuestos del gobierno ( puede ser más familiar para usted como un "gráfico de pendiente") Cada eje se convierte en una especie de tabla de clasificación, que es una buena característica. (Existen algunas diferencias entre los enfoques, particularmente dado que el ejemplo gráfico de tabla de Tufte usaba las mismas unidades y escalas en cada eje, en lugar de normalizar los datos para ajustarse, y dado que sus "ejes" representaban un período de tiempo anterior y posterior, el las pendientes tenían una interpretación adicional como tasa de crecimiento. Estas interpretaciones generalmente no son válidas para una gráfica de coordenadas paralelas, pero la idea de una tabla de clasificación en cada eje sí.)
Enlaces y referencias
fuente