¿Cuándo es útil utilizar la visualización interactiva de datos?

17

Mientras me preparaba para una charla que daré pronto, recientemente comencé a buscar dos herramientas principales (gratuitas) para la visualización interactiva de datos: GGobi y mondrian , ambas ofrecen una gran variedad de capacidades (incluso si están un poco defectuosas).

Deseo pedir su ayuda para articular (tanto para mí como para mi audiencia futura) ¿ Cuándo es útil usar tramas interactivas? ¿Ya sea para la exploración de datos (para nosotros mismos) y la presentación de datos (para un "cliente")?

Para explicar los datos a un cliente, puedo ver el valor de la animación para:

  • Usando "identificar / vincular / cepillar" para ver qué punto de datos en el gráfico es qué.
  • Presentar un análisis de sensibilidad de los datos (por ejemplo: "si eliminamos este punto, esto es lo que obtendremos)
  • Mostrar el efecto de diferentes grupos en los datos (por ejemplo: "veamos nuestros gráficos para hombres y ahora para mujeres")
  • Mostrando el efecto del tiempo (o edad, o en general, ofreciendo otra dimensión a la presentación)

Para cuando exploramos los datos nosotros mismos, puedo ver el valor de identificar / vincular / cepillar al explorar un valor atípico en un conjunto de datos en el que estamos trabajando.

Pero aparte de estos dos ejemplos, no estoy seguro de qué otro uso práctico ofrecen estas técnicas. ¡Especialmente para nuestra propia exploración de datos!

Se podría argumentar que la parte interactiva es buena para explorar (por ejemplo) un comportamiento diferente de diferentes grupos / grupos en los datos. Pero cuando (en la práctica) me acerqué a tal situación, lo que solía hacer era ejecutar los procedimientos estadísticos relevantes (y las pruebas post-hoc), y lo que encontré que era significativo, trazaría con colores dividiendo claramente los datos en grupos relevantes. Por lo que he visto, este es un enfoque más seguro que "preguntarse" sobre los datos (lo que podría conducir fácilmente al dragado de datos (si el alcance de la comparación múltiple necesaria para la corrección ni siquiera está claro).

Estaría muy feliz de leer su experiencia / pensamientos sobre este asunto.

(esta pregunta puede ser un wiki, aunque no es subjetiva y una respuesta bien pensada con mucho gusto ganará mi marca de "respuesta" :))

Tal Galili
fuente
3
Al menos en mi caso, estoy un poco en el mismo bote. Aprecio a Mondrian y lo mantengo actualizado, pero cuando realmente exploro un nuevo conjunto de datos, tiende a estar en R, que es menos interactivo pero más flexible en general. Comencé a escribirle una respuesta completa y me di cuenta de que estaba hablando en la teoría y no desde la experiencia real.
Wayne

Respuestas:

8

Además de vincular datos cuantitativos o cualitativos a patrones espaciales, como lo ilustra @whuber, me gustaría mencionar el uso de EDA, con cepillado y las diversas parcelas de vinculación, para el análisis de datos longitudinales y de alta dimensión .

Ambos se analizan en el excelente libro, Gráficos interactivos y dinámicos para el análisis de datos con R y GGobi , de Dianne Cook y Deborah F. Swayne (Springer UseR !, 2007), que seguramente conoce. Los autores tienen una buena discusión sobre EDA en el Capítulo 1, justificando la necesidad de EDA de "forzar lo inesperado sobre nosotros", citando a John Tukey (p. 13): El uso de pantallas interactivas y dinámicas no es ni espionaje de datos , ni datos preliminares. inspección (p. ej., resúmenes puramente gráficos de los datos), pero se ve simplemente como una investigación interactiva de los datos que podría preceder o complementar el modelado estadístico basado en hipótesis puras.

El uso de GGobi junto con su interfaz R ( rggobi ) también resuelve el problema de cómo generar gráficos estáticos para informes intermedios o publicaciones finales, incluso con Projection Pursuit (pp. 26-34), gracias a los paquetes DescribeDisplay o ggplot2 .

En la misma línea, Michael Friendly ha abogado durante mucho tiempo por el uso de la visualización de datos en el Análisis de datos categóricos, que se ha ejemplificado en gran medida en el paquete vcd, pero también en el paquete vcdExtra más reciente (incluida la visualización dinámica a través del paquete rgl ), que actúa como un pegamento entre los paquetes vcd y gnm para extender modelos log-lineales. Recientemente se dio un buen resumen de ese trabajo durante el sexto CARME conferencia, Avances en la visualización de datos categóricos Uso del VCD, GNM y Paquetes vcdExtra en I .

Por lo tanto, también se puede considerar que EDA proporciona una explicación visual de los datos (en el sentido de que puede explicar patrones inesperados en los datos observados), antes de un enfoque de modelado puramente estadístico, o en paralelo. Es decir, EDA no solo proporciona formas útiles para estudiar la estructura interna de los datos disponibles, sino que también puede ayudar a refinar y / o resumir los modelos estadísticos aplicados en ellos. Es, en esencia, lo que los biplots permiten hacer, por ejemplo. Aunque no son técnicas de análisis multidimensional per se , son herramientas para visualizar los resultados del análisis multidimensional (dando una aproximaciónde las relaciones cuando se consideran todas las personas juntas, o todas las variables juntas, o ambas). Los puntajes de factores se pueden usar en el modelado posterior en lugar de la métrica original para reducir la dimensionalidad o para proporcionar niveles intermedios de representación.

Nota al margen

A riesgo de ser anticuado, sigo usando xlispstat( Luke Tierney ) de vez en cuando. Tiene funcionalidades simples pero efectivas para pantallas interactivas, actualmente no disponible en gráficos base R. No conozco capacidades similares en Clojure + Incanter (+ Processing).

chl
fuente
8

La vinculación dinámica de gráficos es natural y efectiva para el análisis exploratorio de datos espaciales , o ESDA . Los sistemas ESDA generalmente vinculan uno o más mapas cuantitativos (como los mapas coropléticos ) con vistas tabulares y gráficos estadísticos de los datos subyacentes. Algunas de estas capacidades han sido parte de unos pocos sistemas SIG de escritorio durante aproximadamente 15 años, particularmente ArcView 3 (un producto comercial descontinuado). El software gratuito GeoDa proporciona algunas de estas capacidades dentro de un entorno diseñado para la exploración de datos espaciales y el análisis estadístico. Es torpe, con una interfaz idiosincrásica y gráficos sin pulir, pero bastante libre de errores.

Este uso de EDA evita la objeción de que las pruebas estadísticas pueden ser mejores que la exploración interactiva porque en muchas (¿la mayoría?) No hay un modelo estadístico claro, no hay una prueba estadística obvia (o incluso apropiada), y la prueba de hipótesis a menudo es irrelevante: las personas necesitan ver qué ocurre , dónde ocurre y observar las relaciones estadísticas entre variables en un contexto espacial. ¡No todo el análisis de datos es, o incluso debería consistir, en procedimientos formales!

whuber
fuente
Hola whuber Su ejemplo de ESDA es un gran ejemplo, ¡gracias! Si usted (u otros) puede sugerir otros ejemplos de cuándo los procedimientos formales son menos relevantes, esto sería de gran ayuda.
Tal Galili
7

Para mí, la visualización interactiva es útil solo para mi propia exploración, o cuando trabajo con un cliente muy práctico. Cuando se trata de una presentación final, prefiero elegir el gráfico estático que mejor haga mi punto. De lo contrario, los clientes pueden distraerse totalmente por el factor gee-whiz.

El mayor beneficio que obtengo es un nivel de velocidad que me permite examinar mucho más de lo que tendría si me detuviera para programar una solución. JMP es una de mis herramientas favoritas para esto, ya que integra mucho de lo que quiero en una sola interfaz. Creo que la mayoría de las personas que son buenos programadores estadísticos prueban algo como JMP (o GGobi, etc.) durante un período demasiado corto para realmente ser bueno en eso. JMP en particular le dará la impresión de que lo sabe simplemente mirando los menús. Sin embargo, es realmente necesario seguir el manual para descubrir todo su poder.

Sin embargo, mencionaste mi principal preocupación sobre este nivel de velocidad: terminas sin ninguna idea de lo que significan tus valores p. En solo unos minutos puede examinar visualmente cientos de relaciones. Hacer pruebas de hipótesis después de todo eso es totalmente engañoso, pero veo que la gente hace eso todo el tiempo.

Una característica que me encanta en GGobi es su búsqueda de proyección, en la que especifica qué tipo de patrón busca en un espacio de alta dimensión y luego se sienta y observa cómo "persigue" ese objetivo. ¡Buena cosa!

usuario3155
fuente
2
+1. El comentario sobre las presentaciones finales me recuerda, como un contraejemplo notable, la famosa charla TED 2006 de Hans Rosling ( ted.com/talks/… ). Re: el punto sobre examinar "mucho más", recuerdo cómo un abogado en una declaración me preguntó acerca de cómo había examinado los datos que respaldaban mi testimonio y cómo su rostro cayó cuando se enteró de que el trabajo se había realizado de manera interactiva y por lo tanto, no se imprimió ni se guardó nada (lo que luego pudo citar, examinar e intentar impugnar). ;-)
whuber
JMP es una de las mejores aplicaciones de estadísticas que existen. Los estadísticos definitivamente deberían aprender cómo usarlo, aunque solo sea para impresionar a sus clientes. Es caro, pero barato si eres estudiante o miembro del personal de una escuela / universidad / universidad
Neil McGuigan