Consejos para un nuevo científico de datos

Estoy a punto de comenzar un trabajo en el que trabajaré con grandes conjuntos de datos y se esperará que encuentre tendencias, etc. He encontrado muchos recursos sobre dónde aprender ML y otras habilidades difíciles y siento que estoy (semi ) competente en este extremo.

Estoy interesado en saber si hay habilidades blandas específicas que sean útiles como científico de datos. ¿Cuáles son las cosas que desearías saber al comenzar?

Si bien Kaggle es muy útil cuando se aprende, también presenta objetivos claros. ¿Cómo manejas recibir un conjunto de datos, pero no un objetivo claro?

Avíseme si esto es demasiado amplio, puedo pensar en preguntas más específicas.

beginner Hobbes
fuente

consejo # 1: nunca acaricies a un perro en llamas

Brandon Loudermilk

Si no le importa, comparta la industria en la que se encuentra. Las matemáticas y los conceptos siguen siendo los mismos, sin embargo, la estructura de los datos varía y también cómo se puede abordar. Los siguientes consejos son muy adecuados y, si se practican, serán de gran ayuda. Espero que, al conocer la industria, pueda compartir algo que pueda relacionar directamente.

Drj

Espero que quien te haya entrevistado para este trabajo esté leyendo esto y pensando "¿por qué no hicimos esas preguntas en la entrevista?".

Spacedman

Drj, trabajaré en parte con datos del proceso de fabricación y en parte con datos de comentarios de los clientes. Parece un amplio espectro. Vengo de la academia donde los datos fueron producidos por mis propios experimentos y tenía objetivos muy claros.

Hobbes

Respuestas:

Creo que hay muchas habilidades blandas importantes a tener en cuenta en el dominio de Data Science.

Éstos son algunos de ellos:

Sepa con certeza cuál es el objetivo, dedicar mucho tiempo a la disputa de datos, modelos, visualización e informes cuando no era todo para el objetivo específico en mente es un desperdicio. La comunicación con personas menos técnicas es una habilidad en sí misma.
Iterar repetidamente con el dueño del producto. Siga asegurándose de estar en el camino correcto.
Si los datos no cuentan la historia que pensaron / quieren decirles que no es el caso, tenga claro por qué sucede esto, qué sesgos podrían estar jugando un papel, etc. No aplique todo tipo de filtros ni siga cambiando los parámetros para obtener los resultados deseados.

Con respecto a su segunda pregunta:

El objetivo debe obtenerse explícitamente del propietario del producto o derivarse de un objetivo menos matemático. Un ejemplo podría ser donde necesita predecir las llegadas de trenes en función de algunas características. Quieren que el modelo prediga tantas veces como sea posible dentro de un rango de error de 10 minutos. Esto es relativamente explícito.

A veces es menos claro que eso, podrían decir que lo necesitamos lo más preciso posible. Luego, tendrá que decidir qué optimizar, en algunos casos, esto solo minimizará el MSE, pero en otros casos, otras cosas podrían tener más sentido para su caso. Por lo general, esto quedará claro a partir del objetivo implícito y algo en lo que mejorará con más experiencia. Los objetivos implícitos y explícitos se derivan de una comunicación clara con el propietario del producto.

Jan van der Vegt
fuente

Gracias por el comentario, creo que su consejo sobre comunicarse con personas menos técnicas es realmente útil y definitivamente es algo en lo que necesito trabajar.

Hobbes

También agregué información sobre el objetivo

Jan van der Vegt,

Muy útil, tendré esto en mente para seguir adelante. (Supongo que no puedo votar hasta que tenga una mejor reputación)

Hobbes

"¿Cómo manejas recibir un conjunto de datos, pero no un objetivo claro?"

Esto sera comun.

Además del consejo anterior, comprenda que es esencial comprender los objetivos del negocio en el que se encuentra y de su cliente inmediato. Con frecuencia, deberá comprender el problema específico que los hizo recurrir a los datos mejor que ellos. Es muy común que se le presenten datos y un objetivo poco claro de su cliente interno o externo; por lo general, será su tarea proporcionar un objetivo que pueda lograrse con los datos y resolver el problema comercial real del cliente. Se requerirá una gran cantidad de pensamiento lateral para que el resultado de los datos y la solución comercial coincidan.

Resumiría lo anterior como "definir el objetivo es demasiado importante (¡y posiblemente demasiado difícil!) Para dejarlo al cliente (solo)".

En el contexto de aprendizaje automático, CRISP-DM es una metodología que intenta resolver este problema iterando a través de un bucle para que se pueda utilizar la comprensión de datos adicionales en la discusión con el cliente para comprender mejor el problema original. Entonces, por ejemplo, pueden indicar un objetivo mal definido, una segunda discusión después de haber hecho algo de EDA lo afinará un poco. Cuando más tarde produzca un modelo que funcione bien, pero no esté en el objetivo correcto, se acercará nuevamente al objetivo comercial real.

En otras palabras, no se preocupe demasiado por la confusión de la tarea. Espere encontrar una aspiradora y llénela a su favor.

Es un ligero cambio lateral, pero la metodología Six Sigma intenta resolver este problema en un contexto diferente con el sistema DMAIC (la 'D' significa 'Definir', en términos de 'voz del cliente'), por lo que es Es probable que se puedan obtener algunos consejos en recursos para el contexto Six Sigma (por ejemplo, ejercicios que puede hacer con un cliente que lo ayuden a expresar lo que quiere con mayor claridad)

Robert de Graaf
fuente

Gracias, esa es una excelente respuesta. Me gusta especialmente 'definir el objetivo es demasiado importante (¡y posiblemente demasiado difícil!) Para dejarlo al cliente (solo)'. Definitivamente voy a investigar CRISP-DM.

Hobbes