Estoy buscando conjuntos de datos existentes que podamos usar para probar varias técnicas de datavis que estamos investigando.
Conozco varios recursos como los incluidos en R (intente plot(Orange)
o vea aquí ).
Pero me gustaría dar un paso adelante:
- ¿Cuáles son los mejores conjuntos de datos del mundo real para probar una herramienta de visualización?
- ¿Qué conjuntos de datos ha utilizado en trabajos académicos o diapositivas de enseñanza sobre datavis?
- ¿Cuál es el mejor ejemplo del mundo real para mostrar las ventajas de los gráficos?
data-visualization
dataset
teaching
robermorales
fuente
fuente
Respuestas:
Hay una gran cantidad de bases de datos disponibles en internet. Dependiendo del tema, puede obtener diferentes fuentes.
Por ejemplo, en el área temática de Desarrollo Humano puede tener fuentes de datos en (http://hdrstats.undp.org/):
http://hdrstats.undp.org/en/tables/default.html
Para la observación del cambio climático, hay una web con datos climáticos de alta resolución en (http://www.ipcc-data.org/), por ejemplo:
http://www.ipcc-data.org/obs/cru_ts2_1.html
Ambos ejemplos contienen datos reales, utilizados en trabajos científicos publicados, con gran cantidad de datos. Datos relacionados con el tiempo y / o espacio. Las posibilidades de visualización de esos datos son infinitas.
fuente
Me gusta usar los conjuntos de datos de Anscombe (también disponibles en R) para mostrar la importancia de trazar al hacer regresiones. Si no está familiarizado, obtiene la misma línea de regresión y el mismo diagnóstico de los cuatro conjuntos de datos, a pesar de que los conjuntos en sí se ven bastante diferentes. Puede tomar los gráficos a continuación y convertirlos en gráficos residuales para ilustrar los problemas que podría buscar en los residuos después de realizar una regresión.
fuente
Cualquier mesa grande. Por ejemplo, imágenes de Google de la "tabla censal oficial". Verás cosas como la de abajo .
Mire también a Gelman et al. (2002) Practiquemos lo que predicamos: Convertir tablas en gráficos. Estadístico estadounidense 56: 121-130
fuente
William S. Cleveland tiene dos libros llenos de excelentes usos de gráficos, y los datos y el código para crear los gráficos en Visualizing Data están en su sitio web
fuente
Posiblemente ya sabes de estos, pero aquí están de todos modos:
El UCI Machine Learning Repositor y tiene muchos conjuntos de datos del mundo real accesibles al público.
El gobierno de los Estados Unidos hace públicos muchos de sus conjuntos de datos en data.gov .
Si desea algunos datos de visualización difíciles, le sugiero que busque una tarea de clasificación. Me parece que la Bolsa de palabras establecida en el UCI MLR tiene algunas buenas propiedades, pero podría estar equivocado (hace un tiempo desde que lo usé).
fuente
Aquí hay algunos.
Conjuntos de datos de muestra de Sci2 Tool
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets Conjuntos de
datos de muestra que vienen incluidos con Sci2 Tool.
Conjuntos de datos de muestra de Tableau
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources Conjuntos de
datos de muestra para comenzar con Tableau.
Impresionantes conjuntos de datos públicos
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Esta lista de fuentes de datos públicos se recopila y ordena de blogs, respuestas y respuestas de los usuarios. La mayoría de los conjuntos de datos son gratuitos, algunos no lo son.
¡Este hilo es bastante antiguo, con la esperanza de que este bulto obtenga nuevas contribuciones!
fuente
Acabo de notar un montón de conjuntos de datos aquí:
http://www.inside-r.org/howto/finding-data-internet
¿No sé si eso sirve?
Me temo que no enseño visualización, así que no puedo comentar sus preguntas específicas.
fuente