Ciencia de los datos

23
¿Cómo usar la salida de GridSearch?

Actualmente estoy trabajando con Python y Scikit para fines de clasificación, y leyendo un poco sobre GridSearch, pensé que esta era una excelente manera de optimizar los parámetros de mi estimador para obtener los mejores resultados. Mi metodología es esta: Dividir mis datos en entrenamiento /...

22
Compartir cuadernos Jupyter dentro de un equipo

Me gustaría configurar un servidor que pueda soportar un equipo de ciencia de datos de la siguiente manera: ser un punto central para almacenar, versionar, compartir y, posiblemente, también ejecutar cuadernos Jupyter. Algunas propiedades deseadas: Diferentes usuarios pueden acceder al servidor...

22
¿Cómo gestionas las expectativas en el trabajo?

Con todo el alboroto en torno a la ciencia de datos, el aprendizaje automático y todas las historias de éxito, hay muchas expectativas tanto justificadas como demasiado infladas de los científicos de datos y sus modelos predictivos. Mi pregunta para los estadísticos, expertos en aprendizaje...

22
¿Cuál es una mejor entrada para Word2Vec?

Esto es más como una pregunta general de PNL. ¿Cuál es la entrada adecuada para entrenar una incrustación de palabras, a saber, Word2Vec? ¿Deberían todas las oraciones que pertenecen a un artículo ser un documento separado en un corpus? ¿O debería cada artículo ser un documento en dicho corpus?...