¿Es su maestría en informática? ¿Estadísticas?
¿La 'ciencia de datos' estará en el centro de su tesis? O un tema secundario?
Asumiré que estás en Estadísticas y que quieres enfocar tu tesis en un problema de "ciencia de datos". Si es así, voy a ir contra la corriente y sugerirle que no comience con un conjunto de datos o un método ML. En su lugar, debe buscar un problema de investigación interesante que no se entienda bien o en el que los métodos de LD aún no hayan demostrado ser exitosos, o donde haya muchos métodos de ML competitivos pero ninguno parezca mejor que otros.
Considere esta fuente de datos: Stanford Large Network Dataset Collection . Si bien podría elegir uno de estos conjuntos de datos, inventar una declaración del problema y luego ejecutar una lista de métodos de ML, ese enfoque realmente no le dice mucho acerca de qué se trata la ciencia de datos , y en mi opinión no lo hace conducir a una muy buena tesis de maestría.
En su lugar, puede hacer esto: busque todos los trabajos de investigación que usan ML en alguna categoría específica, por ejemplo, redes de colaboración (también conocida como coautoría). Al leer cada papel, tratar de averiguar lo que eran capaces de lograr con cada método ML y lo que no fueron capaces de dirección. Especialmente busque sus sugerencias para "investigaciones futuras".
Quizás todos usan el mismo método, pero nunca intentaron competir con métodos de ML. O tal vez no validan adecuadamente sus resultados, o tal vez sus conjuntos de datos son pequeños, o tal vez sus preguntas e hipótesis de investigación fueron simplistas o limitadas.
Lo más importante: trate de averiguar a dónde va esta línea de investigación. ¿Por qué se molestan en hacer esto? ¿Qué tiene de importante? ¿Dónde y por qué se encuentran con dificultades?