Localización de muestras de datos disponibles libremente

98

He estado trabajando en un nuevo método para analizar y analizar conjuntos de datos para identificar y aislar subgrupos de una población sin conocimiento previo de las características de ningún subgrupo. Si bien el método funciona lo suficientemente bien con muestras de datos artificiales (es decir, conjuntos de datos creados específicamente con el propósito de identificar y segregar subconjuntos de la población), me gustaría probarlo con datos en vivo.

Lo que estoy buscando es una fuente de datos de libre acceso (es decir, no confidencial, no propietaria). Preferiblemente uno que contenga distribuciones bimodales o multimodales o que obviamente esté compuesto por múltiples subconjuntos que no pueden separarse fácilmente por medios tradicionales. ¿A dónde iría para encontrar esa información?

EAMann
fuente
44
Puede que le guste a getthedata.org un sitio de preguntas y respuestas dedicado a encontrar conjuntos de datos
Jeromy Anglim

Respuestas:

46

La siguiente lista contiene muchos conjuntos de datos que pueden interesarle:

Mehper C. Palavuzlar
fuente
17

El Banco Mundial ofrece muchos datos interesantes y recientemente ha sido muy activo en el desarrollo de una buena API para ello.

Además, el proyecto de conmutación tiene una lista interesante disponible.

Para los datos relacionados con la salud de EE. UU ., Diríjase a Health Indicators Warehouse .

El blog de Daniel Lemire señala algunos ejemplos interesantes (en su mayoría diseñados para la investigación de DB), incluidos el Censo canadiense de 1880 y los informes sinópticos de nubes .

Y en cuanto a hoy (03/04/2012) Los registros del censo de los Estados Unidos de 1940 también están disponibles para descargar.

radek
fuente
2
El Banco Mundial está haciendo un esfuerzo adicional con datos abiertos y mapas, para Stata y R.
Fr.
13

Gapminder tiene un número (430 en el último vistazo) de conjuntos de datos, que pueden o no ser útiles para usted.

Amós
fuente
11

MLComp tiene bastantes conjuntos de datos interesantes y, como beneficio adicional, su algoritmo se clasificará si lo carga.

jilles de wit
fuente
10

Un buen lugar para buscar es la Biblioteca de Datos e Historia de la Universidad Carnegie Mellon o DASL , que contiene archivos de datos que "ilustran el uso de métodos estadísticos básicos ... Un buen ejemplo puede hacer que una lección sobre un método estadístico particular sea vívida y relevante. DASL es diseñado para ayudar a los maestros a localizar e identificar archivos de datos para la enseñanza. Esperamos que DASL también sirva como un archivo para los conjuntos de datos de la literatura estadística ".

usuario211
fuente
9

Inicie R y escriba data(). Esto mostrará todos los conjuntos de datos en la ruta de búsqueda. Muchos conjuntos de datos adicionales están disponibles en paquetes complementarios. Por ejemplo, hay algunos conjuntos de datos de ciencias sociales del mundo real interesantes en el AERpaquete.

Jeromy Anglim
fuente
5

La red de Stack Exchange ahora tiene un nuevo sitio, Open Data (en versión beta a partir del 5 de marzo de 2015), dedicado a los datos. Se describe a sí mismo como:

Open Data Stack Exchange es un sitio de preguntas y respuestas para desarrolladores e investigadores interesados ​​en datos abiertos. Está construido y administrado por usted como parte de la red Stack Exchange de sitios de preguntas y respuestas. Con su ayuda, estamos trabajando juntos para crear una biblioteca de respuestas detalladas a cada pregunta sobre datos abiertos.

"Datos abiertos" se refiere a conjuntos de datos que están "disponibles gratuitamente para que todos puedan usarlos y publicarlos como lo deseen, sin restricciones de derechos de autor, patentes u otros mecanismos de control" ( Wikipedia ). Sin embargo, el sitio parece apto para solicitudes de conjuntos de datos cerrados .

gung
fuente
3

Agregar un par a la lista:

Ambos disponibles a través de una API REST y tienen planes de prueba gratuitos.

Eugene Osovetsky
fuente
2

Los conjuntos de datos del libro seminal A handbook of small data setsestán disponibles aquí .

MYaseen208
fuente
2

Buscando un conjunto de datos apropiado para mis necesidades, me acabo de encontrar con dos sitios que son pertinentes para esta discusión.

Datacite.org que se describe a sí mismo como ...

Somos una organización internacional que tiene como objetivo:

  • establecer un acceso más fácil a los datos de investigación
  • aumentar la aceptación de los datos de investigación como contribuciones legítimas en el registro académico, y para
  • admite el archivo de datos para permitir que los resultados se verifiquen y se vuelvan a utilizar para futuros estudios.

DataBib.org que se describe a sí mismo como ...

Databib es una herramienta para ayudar a las personas a identificar y localizar repositorios en línea de datos de investigación. Los usuarios y los bibliógrafos crean y seleccionan registros que describen repositorios de datos que los usuarios pueden buscar.

Pensé que valdría la pena agregarlo a la lista aquí para otros.

¡Ahora para encontrar algo dentro de sus enlaces que se ajuste a mis necesidades!

slackline
fuente
2

Recomiendo visitar quandl.com . Este es un sueño de programadores de datos. Proporciona una API muy fácil para acceder a cualquiera de los más de 10 millones de sitios de datos diferentes. Está buscando datos bimodales o multivariados, por lo que le sugiero que consulte los diversos conjuntos de datos de población, por ejemplo, este cuadro de población mundial contiene los países y territorios de subcomponentes que se incluyen en el total.

Brian Risk
fuente
1
Algunos datos de quandl son gratuitos, otros "Premium", es decir, cuesta $$. También mi sueño API incluye series temporales, ncols y tramas en línea (quiero un pony).
denis
1

Uso a lo largo del tiempo

Una hoja de cálculo Excel muy grande disponible para descargar que contiene puntos de datos para todas las actividades en línea, con datos demográficos de los usuarios, a lo largo del tiempo. Lea la Hoja de consejos (a continuación) antes de descargar o usar esta hoja de cálculo.

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx

Tal Galili
fuente