Conjunto de datos orientado a la ciencia de datos / pregunta de investigación para la tesis de maestría en estadística

11

Me gustaría explorar la 'ciencia de datos'. El término me parece un poco vago, pero espero que requiera:

aprendizaje automático (en lugar de estadísticas tradicionales);
un conjunto de datos lo suficientemente grande como para ejecutar análisis en clústeres.

¿Cuáles son algunos buenos conjuntos de datos y problemas, accesibles para un estadístico con algunos antecedentes de programación, que puedo usar para explorar el campo de la ciencia de datos?

Para mantener esto lo más limitado posible, idealmente me gustaría enlaces a conjuntos de datos abiertos y bien utilizados y problemas de ejemplo.

statistics education knowledge-base definitions usuario3279453
fuente

8

Solo dirígete a kaggle.com; te mantendrá ocupado durante mucho tiempo. Para datos abiertos, existe el repositorio de aprendizaje automático UC Irvine . De hecho, hay un sitio completo de Stackexchange dedicado a esto; mira allí.

Emre
fuente

5

La Fundación Sunlight es una organización que se enfoca en abrir y alentar el análisis no partidista de datos gubernamentales.

Hay un montón de análisis en la naturaleza que se pueden usar para comparar y una amplia variedad de temas.

Proporcionan herramientas y apis para acceder a los datos, y han ayudado a hacer que los datos estén disponibles en lugares como data.gov .

Un proyecto interesante es Influence Explorer . Puede obtener datos de origen aquí , así como acceder a datos en tiempo real.

También es posible que desee echar un vistazo a una de nuestras preguntas más populares:

Conjuntos de datos disponibles públicamente .

Steve Kallestad
fuente

5

¿Es su maestría en informática? ¿Estadísticas?

¿La 'ciencia de datos' estará en el centro de su tesis? O un tema secundario?

Asumiré que estás en Estadísticas y que quieres enfocar tu tesis en un problema de "ciencia de datos". Si es así, voy a ir contra la corriente y sugerirle que no comience con un conjunto de datos o un método ML. En su lugar, debe buscar un problema de investigación interesante que no se entienda bien o en el que los métodos de LD aún no hayan demostrado ser exitosos, o donde haya muchos métodos de ML competitivos pero ninguno parezca mejor que otros.

Considere esta fuente de datos: Stanford Large Network Dataset Collection . Si bien podría elegir uno de estos conjuntos de datos, inventar una declaración del problema y luego ejecutar una lista de métodos de ML, ese enfoque realmente no le dice mucho acerca de qué se trata la ciencia de datos , y en mi opinión no lo hace conducir a una muy buena tesis de maestría.

En su lugar, puede hacer esto: busque todos los trabajos de investigación que usan ML en alguna categoría específica, por ejemplo, redes de colaboración (también conocida como coautoría). Al leer cada papel, tratar de averiguar lo que eran capaces de lograr con cada método ML y lo que no fueron capaces de dirección. Especialmente busque sus sugerencias para "investigaciones futuras".

Quizás todos usan el mismo método, pero nunca intentaron competir con métodos de ML. O tal vez no validan adecuadamente sus resultados, o tal vez sus conjuntos de datos son pequeños, o tal vez sus preguntas e hipótesis de investigación fueron simplistas o limitadas.

Lo más importante: trate de averiguar a dónde va esta línea de investigación. ¿Por qué se molestan en hacer esto? ¿Qué tiene de importante? ¿Dónde y por qué se encuentran con dificultades?

MrMeritology
fuente

Esta es una muy buena idea. El Máster está en Estadística.

user3279453

Conjunto de datos orientado a la ciencia de datos / pregunta de investigación para la tesis de maestría en estadística

Respuestas: