Estoy a punto de comenzar un trabajo en el que trabajaré con grandes conjuntos de datos y se esperará que encuentre tendencias, etc. He encontrado muchos recursos sobre dónde aprender ML y otras habilidades difíciles y siento que estoy (semi ) competente en este extremo.
Estoy interesado en saber si hay habilidades blandas específicas que sean útiles como científico de datos. ¿Cuáles son las cosas que desearías saber al comenzar?
Si bien Kaggle es muy útil cuando se aprende, también presenta objetivos claros. ¿Cómo manejas recibir un conjunto de datos, pero no un objetivo claro?
Avíseme si esto es demasiado amplio, puedo pensar en preguntas más específicas.
Respuestas:
Creo que hay muchas habilidades blandas importantes a tener en cuenta en el dominio de Data Science.
Éstos son algunos de ellos:
Con respecto a su segunda pregunta:
El objetivo debe obtenerse explícitamente del propietario del producto o derivarse de un objetivo menos matemático. Un ejemplo podría ser donde necesita predecir las llegadas de trenes en función de algunas características. Quieren que el modelo prediga tantas veces como sea posible dentro de un rango de error de 10 minutos. Esto es relativamente explícito.
A veces es menos claro que eso, podrían decir que lo necesitamos lo más preciso posible. Luego, tendrá que decidir qué optimizar, en algunos casos, esto solo minimizará el MSE, pero en otros casos, otras cosas podrían tener más sentido para su caso. Por lo general, esto quedará claro a partir del objetivo implícito y algo en lo que mejorará con más experiencia. Los objetivos implícitos y explícitos se derivan de una comunicación clara con el propietario del producto.
fuente
"¿Cómo manejas recibir un conjunto de datos, pero no un objetivo claro?"
Esto sera comun.
Además del consejo anterior, comprenda que es esencial comprender los objetivos del negocio en el que se encuentra y de su cliente inmediato. Con frecuencia, deberá comprender el problema específico que los hizo recurrir a los datos mejor que ellos. Es muy común que se le presenten datos y un objetivo poco claro de su cliente interno o externo; por lo general, será su tarea proporcionar un objetivo que pueda lograrse con los datos y resolver el problema comercial real del cliente. Se requerirá una gran cantidad de pensamiento lateral para que el resultado de los datos y la solución comercial coincidan.
Resumiría lo anterior como "definir el objetivo es demasiado importante (¡y posiblemente demasiado difícil!) Para dejarlo al cliente (solo)".
En el contexto de aprendizaje automático, CRISP-DM es una metodología que intenta resolver este problema iterando a través de un bucle para que se pueda utilizar la comprensión de datos adicionales en la discusión con el cliente para comprender mejor el problema original. Entonces, por ejemplo, pueden indicar un objetivo mal definido, una segunda discusión después de haber hecho algo de EDA lo afinará un poco. Cuando más tarde produzca un modelo que funcione bien, pero no esté en el objetivo correcto, se acercará nuevamente al objetivo comercial real.
En otras palabras, no se preocupe demasiado por la confusión de la tarea. Espere encontrar una aspiradora y llénela a su favor.
Es un ligero cambio lateral, pero la metodología Six Sigma intenta resolver este problema en un contexto diferente con el sistema DMAIC (la 'D' significa 'Definir', en términos de 'voz del cliente'), por lo que es Es probable que se puedan obtener algunos consejos en recursos para el contexto Six Sigma (por ejemplo, ejercicios que puede hacer con un cliente que lo ayuden a expresar lo que quiere con mayor claridad)
fuente