¿Son los mapas de calor "uno de los tipos menos efectivos de visualización de datos"?

22

Pregunta: ¿ Cuándo (para qué tipos de problemas de visualización de datos) son los mapas de calor más efectivos? (En particular, ¿más efectivo que todas las demás técnicas de visualización posibles?)

¿Cuándo son los mapas de calor menos efectivos?

¿Existen patrones o reglas generales comunes que uno pueda usar para decidir si un mapa de calor es o no una forma efectiva de visualizar los datos y cuándo es probable que no sean efectivos?

(Principalmente tengo en mente mapas de calor para 2 variables categóricas y 1 variable continua, pero también estoy interesado en escuchar opiniones sobre otros tipos de mapas de calor).

Contexto: estoy tomando un curso en línea sobre visualización de datos, y en este momento están discutiendo tipos de trama ineficaces y sobreutilizados. Ya mencionaron diagramas de dinamita y gráficos circulares, y las razones dadas por las cuales son ineficaces y por qué hay mejores alternativas para ellos fueron claras y convincentes para mí. Además, fue fácil encontrar otras fuentes que corroboraran las opiniones dadas sobre las parcelas de dinamita y los gráficos circulares.

Sin embargo, el curso también dijo que "los mapas de calor son uno de los tipos menos efectivos de visualización de datos". Una paráfrasis de las razones por las cuales se dan a continuación. Pero cuando intenté encontrar otros lugares en Google que corroboraran este punto de vista, tuve muchas dificultades, en contraste con buscar opiniones sobre la efectividad de los gráficos circulares y las gráficas de dinamita. Por lo tanto, me gustaría saber en qué medida la caracterización de los mapas de calor dada en el curso es válida, y cuándo los factores en su contra son menos importantes y más importantes para un contexto dado.

Las razones dadas fueron:

  1. Es difícil mapear el color en una escala continua.

    Hay algunas excepciones a esta regla, por lo que esto no suele ser un factor decisivo, pero en el caso de los mapas de calor, el problema es particularmente difícil, porque nuestra percepción de un color cambia dependiendo de los colores vecinos. Por lo tanto, los mapas de calor no son adecuados para ver resultados individuales, incluso en pequeños conjuntos de datos. Lo que lleva a:

  2. Por lo general, no es factible responder preguntas específicas utilizando un método de búsqueda de tabla, ya que es imposible inferir con suficiente precisión el valor numérico correspondiente a un color dado.

  3. A menudo, los datos no se agrupan de tal manera que muestren tendencias.

    Sin esa agrupación, a menudo es difícil o imposible inferir algo sobre los patrones generales generales.

  4. Los mapas de calor a menudo solo se usan para comunicar un "factor sorpresa" o simplemente para verse bien, especialmente cuando se usa un gradiente multicolor, pero generalmente hay mejores formas de comunicar los datos.

Trazar datos continuos en una escala común es siempre la mejor opción. Si hay un componente de tiempo, la opción más obvia es un diagrama lineal.

Chill2Macht
fuente
15
La crítica de los "mapas de calor" se reduce a la última línea de (4): ¿cuáles son exactamente estas "mejores formas" de comunicarse? (Si no hay mejores formas, entonces (1) - (3) son escasamente relevantes). Si el propósito es literalmente comunicar los datos , entonces obviamente hay mejores formas: escribir los números. Sin embargo, el propósito de una visualización rara vez es comunicar los datos: en cambio, es apoyar una interpretación o enviar un mensaje. ¿Qué interpretaciones tiene en mente su fuente y cuáles son las mejores formas de presentar esas interpretaciones?
whuber
44
@whuber Como complemento para eso, una cosa muy buena de los mapas de calor es que, en muchos casos, es fácil complementarlos mostrando los datos sin procesar (quizás redondeados de manera apropiada) directamente en cada mosaico. Incluso usar el formato condicional para el color de fondo de las celdas en una hoja de cálculo es un tipo de "mapa de calor" muy efectivo y muy común, en cuyo contexto es difícil ver cómo se pueden mejorar.
Silverfish
2
Mi comentario se refiere solo a la crítica 1. Es correcto que el color (matiz) no se asigne psicológicamente a una escala ordenada, aunque sí físicamente (longitud de onda). Sin embargo, al agregar una dimensión redundante, como el brillo, puede hacerlos más fáciles de interpretar. Podría tener una oscuridad más alta que la luz, pero use colores como el azul claro y el rojo oscuro.
David Lane,
2
Depende del contexto. Aquí hay un gran ejemplo de información valiosa y procesable obtenida de un mapa de calor, para el cual no puedo pensar en ningún otro tipo de visualización de datos más conveniente o útil.
Jason C
55
El color es superfluo (y, ciertamente, mal elegido, es solo el mapa de color de imagen predeterminado en R), pero aquí hay un ejemplo sobre el juego Buscaminas que trabajé hace varios años. Encontré el mapa de calor inmediatamente esclarecedor porque revela una estructura sobre el problema que se vuelve intuitivamente claro una vez que lo ve y lo piensa por un momento, pero que no es inmediatamente obvio (para la mayoría de las personas) antes de ver la trama.
cardenal

Respuestas:

15

No existe una "mejor" trama para esto o para aquello. La forma en que traza sus datos depende del mensaje que desea transmitir. Las parcelas de uso común tienen la ventaja de que es más probable que los usuarios puedan leerlas. Sin embargo, eso no significa que sean necesariamente la mejor opción.

Con respecto a los mapas de calor, he ordenado mi respuesta por los supuestos argumentos en contra de ellos.

Anuncio 1) Si no confía en el color como canal de codificación, utilice el brillo en su lugar, con una escala que abarque tonos de "color" de gris oscuro a gris claro. En la mayoría de los casos, desea agrupar variables continuas (consulte también 5), para que pueda mantener baja la cantidad de colores y facilitar la decodificación de los usuarios. Sin embargo, esto no es obligatorio. Eche un vistazo a este ejemplo , en el que la variable continua no está agrupada.

Anuncio 2) Ciertamente, no deben usarse como una alternativa para buscar valores precisos. Los mapas de calor deben usarse principalmente para ilustrar patrones, no para reemplazar tablas.

Anuncio 3 + 4) No veo cómo esto se relacionaría solo con los mapas de calor.

Anuncio 5) Los mapas de calor se usan idealmente pero no necesariamente con variables discretas. Para las variables continuas, los mapas de calor se pueden usar como una especie de histograma bidimensional o gráfico de barras, con un binning adecuado, así como el brillo como un canal de codificación.

g3o2
fuente
2
Respuesta impresionante! Excepto que no sé lo que significa "Anuncio". ¿Latín? ¿Abreviatura?
xan
1
¡Gracias! "ad" significa "on" o "concerniente", supongo que proviene del latín.
g3o2
Nunca he visto "ad" usado de esa manera tampoco (cc, @xan). Por su descripción, creo que podría usar el ritmo .
gung - Restablece a Monica
1
También recuerde corregir gamma sus mapas de calor basados ​​en el brillo.
user253751
3
@gung En realidad no, en mi opinión. No tiene connotaciones, a diferencia del ritmo, solo significa, además, una adición, en referencia a, en cuanto a ... Sin mencionar que era universal en Occidente, proveniente del latín y ampliamente utilizado en teología y literatura científica y política, entre otras cosas. En un diálogo (correo), las dos partes lo usarían para hacer referencia a los argumentos de cada uno de los puntos. Sin embargo, parece estar cayendo en desgracia a medida que se recorta el lenguaje escrito. El reemplazo habitual es simplemente usar "1.1" en lugar de "Ad 1.1", que puede ser un poco confuso y me parece un poco grosero, pero bueno.
Luaan
5

Alguien no puede decir que Heat Map es el tipo de visualización menos efectivo. Prefiero decir que depende de su requerimiento. En algunos casos, los mapas de calor son muy útiles. Digamos que tiene que hacer un informe sobre la delincuencia en un país a nivel de estado (o de ciudad). Aquí tendrá un gran conjunto de datos que puede tener dependencias de tiempo.

Del mismo modo, supongamos que debe preparar un informe sobre el consumo de electricidad para las ciudades. En estos casos, puede visualizar fácilmente a través del mapa de calor. Tendrá más sentido y será menos engorroso.

En pocas palabras, si tiene muchos datos continuos y desea hacer un informe que pueda precisar las respuestas rápidamente, entonces el mapa de calor es el mejor.

Manish Kumar
fuente
2
Para el consumo de energía, a menudo no hay mejor trama que un mapa de calor: argustech.be/wp-content/uploads/2012/04/heatmap.png Los fines de semana y las horas de trabajo saltan directamente al espectador. Puede ver la carga base, puede ver los picos, puede ver cuándo suceden. Puede detectar cualquier patrón extraño en unos segundos, por ejemplo, si algún dispositivo eléctrico siempre está encendido o comienza demasiado temprano o demasiado tarde.
Eric Duminil
4

La crítica 1 en la pregunta original cubre el mayor inconveniente: que es difícil para alguien que lee el mapa de calor decodificar la información cuantitativa que se transmite. Considere un gráfico de dispersión xy o gráfico de puntos, donde la cantidad subyacente está directamente relacionada con la distancia en el gráfico, muy fácil de interpretar.

Por otro lado, en un mapa de calor, la persona que lee el cuadro tiene la libertad de interpretar el 10% 'más rojo' o 'más oscuro' para su propia satisfacción. Además de eso está el problema de las diferentes capacidades de las personas para discernir el color y la sombra, para empezar. Estas son desventajas genuinas, pero no son universalmente fatales.

La tercera crítica, por el contrario, parece identificar inadvertidamente una ocasión en que los mapas de calor son especialmente útiles, cuando los datos se agrupan en un plano 2D para que valores similares en una tercera dimensión se muestren como parches de un tono o color en particular. Entonces, aunque los mapas de calor son ineficaces en algunas cosas, son útiles para otras, y deben permanecer en su bolso, de la misma manera que los golfistas a menudo llevan cuñas de lanzamiento o similares a pesar de ser inútiles para conducir o poner, o los carpinteros no ignore los martillos porque no son buenos para cortar madera.

En general, la visualización de datos debe verse como una actividad iterativa que tomará algún tiempo al intentar una serie de visualizaciones que resaltan las características importantes de los datos, que incluyen probar más de un tipo de visualización y luego experimentar para encontrar la mejor configuración dentro de elecciones particulares Tampoco debe suponerse que el resultado será una visualización: a veces se necesitarán varias visualizaciones de datos para resaltar múltiples características importantes de los datos. En este contexto, habrá momentos en los que para características particulares de conjuntos de datos particulares, el mapa de calor será el más efectivo, y los clústeres de comunicación como se describen pueden ser uno de esos momentos. En general, habrá ocasiones frecuentes donde una sola visualización no puede hacer todo, y se requerirá más de una.

Robert de Graaf
fuente
3

Como se mencionó anteriormente por otros, es realmente incorrecto decir que los mapas de calor siempre son ineficaces. En realidad, son bastante efectivos en muchos casos.

Por ejemplo, si desea visualizar datos 4D, es lo suficientemente simple como para hacer las primeras tres dimensiones en muchos software de trazado. Sin embargo, todo el concepto de 4D es bastante difícil de conceptualizar. ¿Cuál es la "cuarta" dirección / dimensión?

Ahí es donde un mapa de calor puede ser efectivo, ya que permitirá trazar las primeras tres dimensiones en el eje de coordenadas, y la cuarta se puede visualizar apilando un mapa de calor en su plano trazado (o línea, pero eso es menos probable).

La conclusión es que necesitas contexto. ¿Qué estás buscando en tu visualización? Además, como compañero autodidacta, puedo decirle que estos cursos en línea tienden a ser muy triviales e inútiles. Es mucho mejor usarlos solo cuando busca información / ayuda sobre temas específicos en lugar de buscar que se le enseñe sobre un tema completo.

Sin embargo, la mejor de las suertes.

Abraham Horowitz
fuente
3

Por naturaleza, un mapa de calor muestra datos con dos variables independientes continuas (o, no del todo equivalente, una variable independiente de un espacio vectorial bidimensional) y una variable dependiente continua. Para datos de ese tipo, un mapa de calor es definitivamente uno de los tipos más efectivos de visualización de datos. Sí, tiene sus problemas, pero eso es inevitable: realmente solo tiene dos dimensiones para trabajar y no se puede asignar un espacio tridimensional a eso de una manera que conserve la estructura , por lo tanto, necesita un truco como asignar una dimensión al color o dibujar líneas de contorno, etc.

R2X×Y|X||Y|, que es finito para una variable categórica; en otras palabras, el producto cartesiano de dos variables categóricas puede considerarse como una sola variable categórica . Y en ese sentido, también puede usar otras parcelas, que no tienen los problemas de un mapa de calor.

Si se encuentra en una situación en la que un mapa de calor sobre dos variables categóricas parece útil, es una indicación de que probablemente estas no sean realmente variables categóricas, sino más bien variables continuas cuantizadas.

a la izquierda
fuente
44
Esta respuesta es interesante, pero creo que da poca importancia a la noción de usar mapas de calor con variables categóricas. Por ejemplo, uno podría clasificar los niveles categóricos por sus recuentos (o alguna otra variable de clasificación relevante) y luego usar un mapa de calor para visualizar la distribución conjunta o alguna otra cantidad que varía con los niveles categóricos conjuntos. Esto puede vincularse a cópulas (y nociones generalizadas de las mismas). Dichas visualizaciones, cuando se hacen bien, pueden revelar una estructura real en los datos que de otro modo sería muy difícil de detectar. (...)
cardenal
(...) Y, este enfoque es independiente de cualquier noción (directa) de incrustar los niveles categóricos en un espacio euclidiano.
Cardenal
Me preguntaba si tiene algún comentario sobre la práctica de usar mapas de calor para la expresión génica / datos de microarrays; estos parecerían casos de usar mapas de calor para 2 variables categóricas y una variable continua para las que las variables categóricas realmente no pueden ser interpretado como variables continuas cuantizadas. O supongo mapas de calor para matrices de correlación de variables categóricas en general.
Chill2Macht
3

Los mapas de calor son excelentes para proporcionar una vista simplista de múltiples variables desde una perspectiva de series de tiempo: los datos pueden ser cambios absolutos a lo largo del tiempo o estandarizados utilizando puntajes Z u otros medios para examinar variables con diferentes intervalos de medición o cambios relativos de subgrupos. Proporciona una vista muy visualmente visible de que uno puede detectar correlaciones o inversas y reemplaza una multitud de gráficos. También se pueden usar en el preprocesamiento para evaluar la posible reducción de dimensionalidad, es decir, Factoring o PCA.

Las variables que intervienen mal y otros factores pueden quedar ocultos y pasarse por alto al usar este enfoque para detectar correlaciones. Los mismos aspectos ocultos ocurren con los gráficos de líneas, sin embargo, dada la gran cantidad de variables, mi experiencia es que los mapas térmicos aportan tanta información que un usuario no considera los aspectos intermedios ni otros factores ocultos.

Esto desde un científico de datos desde una perspectiva de economista progresista con 20 años en el campo produciendo datos y con la tarea de educar al público en general con dichos datos.

Paul Tulloch
fuente
1

Los mapas de calor son ventajosos sobre los diagramas de dispersión cuando hay demasiados puntos de datos para ver en un diagrama de dispersión. Esto puede mitigarse en un diagrama de dispersión utilizando puntos de datos translúcidos, pero más allá de cierto umbral, es mejor resumir los datos.

En esta publicación de blog se da un ejemplo convincente de diagramas de dispersión que son difíciles de interpretar.

Un diagrama de dispersión solo puede representar visualmente la densidad hasta un cierto umbral: el umbral de "puntos en todas partes" ...

Densidad del terreno, no puntos

La solución es trazar la densidad de puntos agrupados en lugar de los puntos en sí. Ya conocemos este método en una dimensión como el histograma.

En dos dimensiones, hay múltiples formas de hacerlo. Las formas del contenedor se pueden tomar de cualquier método de mosaico uniforme del plano, como cuadrados o hexágonos. Para cada mosaico, se cuenta el número de puntos de datos dentro del mosaico. Luego se le asigna un color al mosaico de acuerdo con el número de puntos.

Una declaración similar de los documentos de ggplot2 en el mapa de calor de conteos de contenedores 2D :

Esta es una alternativa útil geom_point()en presencia de sobreplotting.

En los documentos de geom_point():

Sobre trazado

El mayor problema potencial con un diagrama de dispersión es el trazado excesivo: siempre que tenga más de unos pocos puntos, los puntos se pueden trazar uno encima del otro. Esto puede distorsionar severamente la apariencia visual de la trama. No hay una solución única para este problema, pero hay algunas técnicas que pueden ayudar. Se puede añadir información adicional geom_smooth(), geom_quantile()o geom_density_2d(). Si tiene pocos valores x únicos, geom_boxplot()también puede ser útil.

Alternativamente, se puede resumir el número de puntos en cada lugar y mostrar que, de alguna manera, utilizando geom_count(), geom_hex()o geom_density2d().

Otra técnica es hacer que los puntos sean transparentes (por ejemplo geom_point(alpha = 0.05)) o muy pequeños (por ejemplo geom_point(shape = ".")).

qwr
fuente