Conjuntos de datos para ejemplos de visualización de datos, enseñanza e investigación.

9

Estoy buscando conjuntos de datos existentes que podamos usar para probar varias técnicas de datavis que estamos investigando.

Conozco varios recursos como los incluidos en R (intente plot(Orange)o vea aquí ).

Pero me gustaría dar un paso adelante:

  • ¿Cuáles son los mejores conjuntos de datos del mundo real para probar una herramienta de visualización?
  • ¿Qué conjuntos de datos ha utilizado en trabajos académicos o diapositivas de enseñanza sobre datavis?
  • ¿Cuál es el mejor ejemplo del mundo real para mostrar las ventajas de los gráficos?
robermorales
fuente
2
Muchos buenos ejemplos del mundo real, con algunos de los proyectos vinculados que proporcionan los conjuntos de datos (pero la mayoría no, por desgracia): infosthetics.com
WSkid
1
¿Está buscando expresamente conjuntos de datos gratuitos ?
Fomite
3
La visualización depende del contexto y la audiencia (entre otras cosas), lo que sugiere que "mejor" es ambiguo en este contexto. Puede obtener respuestas más centradas y pertinentes al indicar qué "técnicas" está investigando.
whuber
1
@whuber Techniques, sobre la automatización de la visualización. Lo mejor, para explicar. Lo mejor, como punto de referencia.
robermorales
@EpiGrad Sí, lo más gratis posible.
robermorales

Respuestas:

5

Hay una gran cantidad de bases de datos disponibles en internet. Dependiendo del tema, puede obtener diferentes fuentes.

Por ejemplo, en el área temática de Desarrollo Humano puede tener fuentes de datos en (http://hdrstats.undp.org/):

http://hdrstats.undp.org/en/tables/default.html

Para la observación del cambio climático, hay una web con datos climáticos de alta resolución en (http://www.ipcc-data.org/), por ejemplo:

http://www.ipcc-data.org/obs/cru_ts2_1.html

Ambos ejemplos contienen datos reales, utilizados en trabajos científicos publicados, con gran cantidad de datos. Datos relacionados con el tiempo y / o espacio. Las posibilidades de visualización de esos datos son infinitas.

Jose Zubcoff
fuente
¿Cuál de los conjuntos de datos posibles de estas magníficas fuentes te gusta más? gracias
robermorales
1
Depende de la idoneidad para el "sabor" de la visualización. Por ejemplo, para explorar / mostrar series temporales, la web del IPCC tiene suficientes datos y es ampliamente utilizada (obviamente para analizar el cambio climático), para mostrar datos espaciales, el sitio web de Desarrollo Humano contiene muchos datos relacionados con el espacio, así como datos relacionados con hora.
Jose Zubcoff
Su primer enlace está roto (error de DNS).
horaceT
Lamentablemente, el primer enlace está roto (5 años después), pero hay muchos datos abiertos disponibles: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Jose Zubcoff
9

Me gusta usar los conjuntos de datos de Anscombe (también disponibles en R) para mostrar la importancia de trazar al hacer regresiones. Si no está familiarizado, obtiene la misma línea de regresión y el mismo diagnóstico de los cuatro conjuntos de datos, a pesar de que los conjuntos en sí se ven bastante diferentes. Puede tomar los gráficos a continuación y convertirlos en gráficos residuales para ilustrar los problemas que podría buscar en los residuos después de realizar una regresión.

Conjuntos de datos de Anscombe

Charlie
fuente
Sí, sabíamos que los conjuntos de datos. Es un buen punto de partida.
robermorales
El principal problema es que no es un conjunto de datos del mundo real.
robermorales
3
@robermorales, bastante justo, pero creo que ver la versión "pura" del problema hace que sea más fácil entender las visualizaciones / problemas más desordenados del mundo real.
Charlie
4

William S. Cleveland tiene dos libros llenos de excelentes usos de gráficos, y los datos y el código para crear los gráficos en Visualizing Data están en su sitio web

Peter Flom - Restablece a Monica
fuente
¿Cuál de los conjuntos de datos de Cleveland te gusta más? gracias
robermorales
1
@robertomorales Creo que todos están bien elegidos para sus propósitos. Cualquier persona interesada en gráficos estadísticos debe estudiar cuidadosamente a Cleveland.
Peter Flom - Restablece a Monica
1
Los datos para Visualizar datos se pueden encontrar en lib.stat.cmu.edu/datasets/visualizing.data.zip. Ya no puedo encontrarlos en el sitio web de Cleveland.
Nick Cox
4

Posiblemente ya sabes de estos, pero aquí están de todos modos:

El UCI Machine Learning Repositor y tiene muchos conjuntos de datos del mundo real accesibles al público.

El gobierno de los Estados Unidos hace públicos muchos de sus conjuntos de datos en data.gov .

Si desea algunos datos de visualización difíciles, le sugiero que busque una tarea de clasificación. Me parece que la Bolsa de palabras establecida en el UCI MLR tiene algunas buenas propiedades, pero podría estar equivocado (hace un tiempo desde que lo usé).

John Doucette
fuente
¡Gracias! Hay muchos !
robermorales
3

Aquí hay algunos.

Conjuntos de datos de muestra de Sci2 Tool
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets Conjuntos de
datos de muestra que vienen incluidos con Sci2 Tool.

Conjuntos de datos de muestra de Tableau
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources Conjuntos de
datos de muestra para comenzar con Tableau.

Impresionantes conjuntos de datos públicos
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Esta lista de fuentes de datos públicos se recopila y ordena de blogs, respuestas y respuestas de los usuarios. La mayoría de los conjuntos de datos son gratuitos, algunos no lo son.

¡Este hilo es bastante antiguo, con la esperanza de que este bulto obtenga nuevas contribuciones!

Mike Nutt
fuente