Uno de los problemas comunes en la ciencia de datos es reunir datos de varias fuentes en un formato de alguna manera limpio (semi-estructurado) y combinar métricas de varias fuentes para hacer un análisis de nivel superior. Al observar el esfuerzo de otras personas, especialmente otras preguntas en este sitio, parece que muchas personas en este campo están haciendo un trabajo repetitivo. Por ejemplo, analizar tweets, publicaciones de Facebook, artículos de Wikipedia, etc. es parte de muchos problemas de big data.
Se puede acceder a algunos de estos conjuntos de datos mediante las API públicas proporcionadas por el sitio del proveedor, pero por lo general, algunas API o información valiosa faltan y todos tienen que hacer los mismos análisis una y otra vez. Por ejemplo, aunque la agrupación de usuarios puede depender de diferentes casos de uso y la selección de características, tener una agrupación base de usuarios de Twitter / Facebook puede ser útil en muchas aplicaciones de Big Data, que no es proporcionada por la API ni disponible públicamente en conjuntos de datos independientes .
¿Existe algún índice o sitio de alojamiento de conjuntos de datos disponible públicamente que contenga conjuntos de datos valiosos que puedan reutilizarse para resolver otros problemas de big data? Me refiero a algo como GitHub (o un grupo de sitios / conjuntos de datos públicos o al menos una lista completa) para la ciencia de datos. Si no es así, ¿cuáles son las razones para no tener una plataforma para la ciencia de datos? El valor comercial de los datos, necesita actualizar con frecuencia conjuntos de datos, ...? ¿No podemos tener un modelo de código abierto para compartir conjuntos de datos diseñados para científicos de datos?
fuente
Respuestas:
De hecho, existe una lista muy razonable de conjuntos de datos disponibles al público, respaldados por diferentes empresas / fuentes.
Algunos de ellos están a continuación:
Ahora, dos consideraciones sobre su pregunta. Primero, sobre las políticas de intercambio de bases de datos. Por experiencia personal, hay algunas bases de datos que no se pueden poner a disposición del público, ya sea por restricciones de privacidad (como para alguna información de redes sociales) o por información gubernamental (como las bases de datos del sistema de salud).
Otro punto se refiere al uso / aplicación del conjunto de datos. Aunque algunas bases pueden reprocesarse para adaptarse a las necesidades de la aplicación, sería genial tener una buena organización de los conjuntos de datos por propósito. La taxonomía debe incluir análisis de gráficos sociales, minería de conjuntos de elementos, clasificación y muchas otras áreas de investigación que pueda haber.
fuente
Actualizar:
Kaggle.com , un hogar de entusiastas modernos de la ciencia de datos y el aprendizaje automático :), abrió su propio repositorio de los conjuntos de datos .
Además de las fuentes enumeradas.
Algunos conjuntos de datos de redes sociales:
Hay muchas fuentes enumeradas en Estadísticas SE:
fuente
Hay muchos conjuntos de datos disponibles abiertamente, uno que muchas personas suelen pasar por alto es data.gov . Como se mencionó anteriormente, Freebase es genial, también lo son todos los ejemplos publicados por @Rubens
fuente
Freebase es una base de datos gratuita impulsada por la comunidad que abarca muchos temas interesantes y contiene alrededor de 2,5 mil millones de datos en formato legible por máquina. También es buena API para realizar consultas de datos.
Aquí hay otra lista compilada de conjuntos de datos abiertos: http://www.datapure.co/open-data-sets
fuente
Los siguientes enlaces están disponibles
Conjuntos de datos públicos
Conjuntos de datos públicos de Google
Servicios web de Amazon
Encontrar datos en Internet
fuente
Para los datos de series de tiempo en particular, Quandl es un recurso excelente: un directorio fácilmente navegable de (principalmente) series de tiempo limpias.
Una de sus características más interesantes son los precios de las acciones de datos abiertos , es decir, datos financieros que se pueden editar al estilo wiki, y no están gravados por las licencias.
fuente
Enigma es un repositorio de conjuntos de datos públicos disponibles. Su plan gratuito ofrece búsqueda de datos públicos, con 10 mil llamadas API por mes. No se enumeran todas las bases de datos públicas, pero la lista es suficiente para casos comunes.
Lo utilicé para la investigación académica y me ahorró mucho tiempo.
Otra fuente interesante de datos es el proyecto @unitedstates , que contiene datos y herramientas para recopilarlos, sobre los Estados Unidos (miembros del Congreso, formas geográficas ...).
fuente
Me gustaría señalar el Censo de datos abiertos . Es una iniciativa de Open Knowledge Foundation basada en contribuciones de defensores de datos abiertos y expertos de todo el mundo.
El valor del Censo de datos abiertos es un esfuerzo abierto, impulsado por la comunidad y sistemático para recopilar y actualizar la base de datos de conjuntos de datos abiertos a nivel mundial en el país y, en algunos casos, como EE. UU., A nivel de la ciudad .
Además, presenta una oportunidad para comparar diferentes países y ciudades en áreas de interés seleccionadas.
fuente
También hay otro recurso provisto por The Guardian, el British Daily en su sitio web. Los conjuntos de datos publicados por Guardian Datablog están todos alojados. Conjuntos de datos relacionados con las cuentas de los clubes de la Premier League de fútbol, la inflación y los detalles del PIB del Reino Unido, los datos de los premios Grammy, etc. Los conjuntos de datos están disponibles en
Algunos recursos más. Algunos de los conjuntos de datos están en formato R o existen comas R para importar datos directamente a R.
fuente
Búsqueda personalizada de Google
Puede usar la Búsqueda personalizada de Google para conjuntos de datos:
Búsqueda personalizada de Google: conjuntos de datos
Incluye 230 fuentes y meta-fuentes de conjuntos de datos, incluidos todos los mencionados en esta pregunta. Por favor, siéntase libre de excluir .gov y cualquier otro sitio web de los resultados agregando "-.gov" o "-site.com" a la línea de búsqueda. Otros operadores de búsqueda de Google funcionan.
No dude en ponerse en contacto conmigo si tiene ideas sobre qué sitios web agregar.
IOGDS
El siguiente servicio clasifica más de 1,000,000 de conjuntos de datos públicos:
IOGDS: Búsqueda internacional de conjuntos de datos de gobierno abierto
fuente
Respuesta tardía, pero aquí hay una lista ecléctica de más de 100 conjuntos de datos interesantes
La publicación del blog es divertida y fácil de leer (no tengo afiliación). Vale la pena escanear y raspar algunos desde la parte superior:
Últimas palabras de cada interno de Texas ejecutado desde 1984
10,000 imágenes anotadas de gatos
2,2 millones de partidas de ajedrez
fuente
Encontré este enlace en Data Science Central con una lista de conjuntos de datos gratuitos: grandes conjuntos de datos disponibles de forma gratuita
fuente
¿Sabía acerca de los puntos de referencia PUMA y las descargas de conjuntos de datos? https://sites.google.com/site/farazahmad/pumadatasets
Incluye lo siguiente:
fuente
El Gobierno del Reino Unido proporciona una excelente fuente de datos no personales recopilados en todos los departamentos gubernamentales: http://data.gov.uk
fuente
Soy nuevo en este foro. Tocando tarde esta pregunta. He estado manteniendo (soy cofundador de) un catálogo de portales de datos disponibles públicamente. Ahora hay más de 1000 en la lista y cubren portales a nivel internacional, federal, estatal, municipal y académico en todo el mundo.
http://www.opengeocode.org/opendata/
fuente
Me sorprende que uno no haya mencionado esto, ya que parece bastante obvio: http://www.kaggle.com tiene constantemente conjuntos de datos nuevos y muy interesantes. La información se considera un activo, por lo que a menudo las empresas no quieren divulgar esos datos (más las preocupaciones de privacidad). Kaggle le brinda datos y esperan que resuelva los problemas comerciales con ellos a cambio.
fuente
Conjuntos de datos
Conjuntos de Datos De impresionante-datascience
fuente
Como mencionó, la API es la parte difícil, no los datos. Quandl parece resolver este problema al proporcionar más de 10 millones de conjuntos de datos disponibles públicamente en una API RESTful fácil. Si la programación no es su fuerte, hay una herramienta gratuita para facilitar la carga de datos en Excel. Además, si lo hace disfrutar de la programación, hay varias bibliotecas nativas en R, Python, Java y más .
fuente
Para agregar a una lista posiblemente interminable:
como mencionó cyndd, hay Wikidata ,
y para conocimiento estructurado curado, Wolfram Alpha .
fuente
Encontré esta colección en Github. La colección también está categorizada.
https://github.com/caesar0301/awesome-public-datasets
Y por la parte sobre
puede consultar la guía grupal Leek para compartir datos
fuente
No todos los datos del gobierno figuran en data.gov: la Fundación Sunlight reunió un conjunto de hojas de cálculo en febrero que describen los conjuntos de datos disponibles.
fuente
Otra fuente de datos que no vi en la lista es el Proyecto GDELT . Desde el sitio:
fuente
Este subreddit enumera muchos conjuntos de datos conocidos
Conjuntos de datos de Reddit
Hay muchas solicitudes de conjunto de datos en ese subreddit, varias de las cuales han sido respondidas.
fuente
Creé un repositorio github para esto. Los conjuntos de datos no son grandes, pero son ejemplos mínimos destinados a practicar y explorar técnicas de modelado predictivo que luego pueden extenderse a grandes conjuntos de datos.
Biblia de problemas de aprendizaje automático (MLPB)
Lo bueno / único de este repositorio es que cada problema está etiquetado con etiquetas como [multiclase], [datos no balanceados], [regresión], etc., lo que facilita encontrar ciertos tipos de problemas / conjuntos de datos.
fuente
Eurostats http://ec.europa.eu/eurostat y el Banco Central Europeo https://www.ecb.europa.eu/stats/html/index.en.html proporcionan una gran variedad de conjuntos de datos que uso con bastante frecuencia en mi Proyectos de trabajo.
fuente
Además de todos estos conjuntos de datos, si está interesado en datos relacionados con la India. El sitio público oficial del gobierno indio es
Proporciona conjuntos de datos de diferentes departamentos del gobierno indio que se pueden usar bien para el análisis de Big Data y el aprendizaje automático.
fuente
Yahoo acaba de lanzar un gran conjunto de datos para la comunidad de investigación. ¡Disfrútala!
fuente
Simplemente cargamos el paquete MASS en R y accedemos a múltiples marcos de datos o conjuntos de datos.
install.packages ("MASS") requiere ("MASS")
fuente
3 conjuntos de datos de https://www.jc-bingo.com/about
fuente
Obviamente, existe un gran conjunto de bases de datos públicas.
Uno aún no mencionado, es de la FAO (Organización de las Naciones Unidas para la Agricultura y la Alimentación), accesible en:
http://www.fao.org/faostat/
Contiene datos sobre la producción de alimentos para países de todo el mundo.
fuente