Contexto:
Mientras tanto, he adquirido un conjunto de heurísticas sobre cómo trazar efectivamente la asociación entre dos variables numéricas. Me imagino que la mayoría de las personas que trabajan con datos tendrían un conjunto similar de reglas.
Ejemplos de tales reglas pueden ser:
- Si una de las variables está sesgada positivamente, considere trazar ese eje en una escala logarítmica.
- Si hay muchos puntos de datos (p. Ej., N> 1000), adopte una estrategia diferente, como usar alguna forma de transparencia parcial o muestrear los datos;
- Si una de las variables toma un número limitado de categorías discretas, considere usar una fluctuación de fase o un diagrama de girasol;
- Si hay tres o más variables, considere usar una matriz de diagrama de dispersión;
- Ajustar alguna forma de línea de tendencia a menudo es útil;
- Ajuste el tamaño del carácter de trazado al tamaño de la muestra (para n más grande, use un carácter de trazado más pequeño);
- y así.
Pregunta:
Me gustaría poder referir a los estudiantes a una página web o sitio que explique estos y otros trucos para trazar efectivamente asociaciones entre dos variables numéricas, tal vez con ejemplos.
- ¿Hay páginas o sitios en Internet que hagan un buen trabajo?
data-visualization
correlation
teaching
rule-of-thumb
scatterplot
Jeromy Anglim
fuente
fuente
Respuestas:
No puedo pensar en grandes recursos en línea fuera de mi cabeza, pero un capítulo de libro agradable (y fácilmente descargable) que narra cómo explorar visualmente un conjunto de datos grandes y multidimensionales de una manera reflexiva es Brendan O'Connor y Lukas Biewald. capítulo (advertencia: el enlace es directamente a un PDF) de Beautiful Data . El capítulo es particularmente útil como recurso de enseñanza porque incorpora el código R en la narración.
Además, luego de una reflexión más profunda, creo que el clásico "Some Graphic and Semigraphic Displays" de John Tukey (convenientemente publicado en el sitio web de Edward Tufte) es una introducción a la visualización realmente maravillosa, aunque algo idiosincrática.
Por alguna razón, parece que estoy pensando en capítulos de libros ...
fuente
Referencias recientes:
Kelleher y Wagner 2011 "Diez pautas para la visualización efectiva de datos en publicaciones científicas" proporciona un buen conjunto de reglas. Las reglas, con referencias (pero no el artículo completo) están disponibles sin suscripción, aunque es probable que los estudiantes universitarios tengan acceso completo.
Naciones Unidas 2009 "Hacer que los datos sean significativos" proporciona una buena visión general, con reglas y ejemplos, incluida una sección sobre "tecnologías emergentes".
Recursos más antiguos pero relevantes
SIGGGRAPH proporciona algunos tutoriales excelentes, aunque carece de ejemplos, que incluyen:
Senay e Ignatius 1999 "Reglas y principios de visualización de datos científicos"
Domik 1999 "Tutorial sobre visualización"
Un buen resumen de Tufte se puede encontrar aquí:
fuente