He estado trabajando en un nuevo método para analizar y analizar conjuntos de datos para identificar y aislar subgrupos de una población sin conocimiento previo de las características de ningún subgrupo. Si bien el método funciona lo suficientemente bien con muestras de datos artificiales (es decir, conjuntos de datos creados específicamente con el propósito de identificar y segregar subconjuntos de la población), me gustaría probarlo con datos en vivo.
Lo que estoy buscando es una fuente de datos de libre acceso (es decir, no confidencial, no propietaria). Preferiblemente uno que contenga distribuciones bimodales o multimodales o que obviamente esté compuesto por múltiples subconjuntos que no pueden separarse fácilmente por medios tradicionales. ¿A dónde iría para encontrar esa información?
fuente
Respuestas:
Consulte también el repositorio de datos de aprendizaje automático UCI.
http://archive.ics.uci.edu/ml/
fuente
La siguiente lista contiene muchos conjuntos de datos que pueden interesarle:
fuente
Consulte mi respuesta a "Conjuntos de datos para ejecutar análisis estadístico en" en referencia a los conjuntos de datos en R.
fuente
El Banco Mundial ofrece muchos datos interesantes y recientemente ha sido muy activo en el desarrollo de una buena API para ello.
Además, el proyecto de conmutación tiene una lista interesante disponible.
Para los datos relacionados con la salud de EE. UU ., Diríjase a Health Indicators Warehouse .
El blog de Daniel Lemire señala algunos ejemplos interesantes (en su mayoría diseñados para la investigación de DB), incluidos el Censo canadiense de 1880 y los informes sinópticos de nubes .
Y en cuanto a hoy (03/04/2012) Los registros del censo de los Estados Unidos de 1940 también están disponibles para descargar.
fuente
Gapminder tiene un número (430 en el último vistazo) de conjuntos de datos, que pueden o no ser útiles para usted.
fuente
MLComp tiene bastantes conjuntos de datos interesantes y, como beneficio adicional, su algoritmo se clasificará si lo carga.
fuente
Un buen lugar para buscar es la Biblioteca de Datos e Historia de la Universidad Carnegie Mellon o DASL , que contiene archivos de datos que "ilustran el uso de métodos estadísticos básicos ... Un buen ejemplo puede hacer que una lección sobre un método estadístico particular sea vívida y relevante. DASL es diseñado para ayudar a los maestros a localizar e identificar archivos de datos para la enseñanza. Esperamos que DASL también sirva como un archivo para los conjuntos de datos de la literatura estadística ".
fuente
Inicie R y escriba
data()
. Esto mostrará todos los conjuntos de datos en la ruta de búsqueda. Muchos conjuntos de datos adicionales están disponibles en paquetes complementarios. Por ejemplo, hay algunos conjuntos de datos de ciencias sociales del mundo real interesantes en elAER
paquete.fuente
NIST proporciona un archivo de conjunto de datos de referencia .
fuente
http://www.reddit.com/r/datasets y también, http://www.reddit.com/r/opendata contienen una lista en constante crecimiento de punteros a varios conjuntos de datos.
fuente
La red de Stack Exchange ahora tiene un nuevo sitio, Open Data (en versión beta a partir del 5 de marzo de 2015), dedicado a los datos. Se describe a sí mismo como:
"Datos abiertos" se refiere a conjuntos de datos que están "disponibles gratuitamente para que todos puedan usarlos y publicarlos como lo deseen, sin restricciones de derechos de autor, patentes u otros mecanismos de control" ( Wikipedia ). Sin embargo, el sitio parece apto para solicitudes de conjuntos de datos cerrados .
fuente
Timetric proporciona una interfaz web para los datos y proporciona una lista de los conjuntos de datos disponibles públicamente que utilizan
fuente
Agregar un par a la lista:
Muchos datos financieros detallados sobre empresas que cotizan en bolsa, que se remontan a muchas décadas: http://www.mergent.com/servius
Rica información sobre más de 16 millones de empresas en los EE. UU .: http://compass.webservius.com
Ambos disponibles a través de una API REST y tienen planes de prueba gratuitos.
fuente
Aquí hay otra lista .
fuente
Esta es probablemente la lista más completa que encontrará: algunos conjuntos de datos disponibles en la Web
fuente
Peter Skomoroch mantiene una lista de conjuntos de datos en http://www.datawrangling.com/some-datasets-available-on-the-web . Muchos de los enlaces proporcionados en cuanto a lugares que enumeran conjuntos de datos.
fuente
Los conjuntos de datos del libro seminal
A handbook of small data sets
están disponibles aquí .fuente
Buscando un conjunto de datos apropiado para mis necesidades, me acabo de encontrar con dos sitios que son pertinentes para esta discusión.
Datacite.org que se describe a sí mismo como ...
DataBib.org que se describe a sí mismo como ...
Pensé que valdría la pena agregarlo a la lista aquí para otros.
¡Ahora para encontrar algo dentro de sus enlaces que se ajuste a mis necesidades!
fuente
Recomiendo visitar quandl.com . Este es un sueño de programadores de datos. Proporciona una API muy fácil para acceder a cualquiera de los más de 10 millones de sitios de datos diferentes. Está buscando datos bimodales o multivariados, por lo que le sugiero que consulte los diversos conjuntos de datos de población, por ejemplo, este cuadro de población mundial contiene los países y territorios de subcomponentes que se incluyen en el total.
fuente
fuente
Uso a lo largo del tiempo
Una hoja de cálculo Excel muy grande disponible para descargar que contiene puntos de datos para todas las actividades en línea, con datos demográficos de los usuarios, a lo largo del tiempo. Lea la Hoja de consejos (a continuación) antes de descargar o usar esta hoja de cálculo.
http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx
fuente
http://www.ckan.net también tiene una serie de conjuntos de datos.
http://www.biotorrents.net/browse.php también está comenzando a tener una gran cantidad de GRANDES conjuntos de datos.
fuente
SODA POP en Penn State;
http://sodapop.pop.psu.edu/
Archivo de datos en línea simple para estudios de población.
fuente
Voy a seguir adelante y toparme con un viejo tema porque acabo de encontrar esta carga madre:
http://vincentarelbundock.github.io/Rdatasets/
fuente
Singapur anuncia la iniciativa de datos abiertos . Consulte data.gov.sg similar a data.gov en los EE. UU.
fuente