Parece que la minería de datos y el aprendizaje automático se hicieron tan populares que ahora casi todos los estudiantes de CS saben sobre clasificadores, agrupamiento, PNL estadístico ... etc. Así que parece que encontrar mineros de datos no es algo difícil en la actualidad.
Mi pregunta es: ¿Cuáles son las habilidades que un minero de datos podría aprender que lo harían diferente a los demás? Para convertirlo en una persona no tan fácil de encontrar a alguien como él.
machine-learning
data-mining
Jack Twain
fuente
fuente
Respuestas:
He visto varias veces que los desarrolladores usan técnicas de ML. Este es el patrón habitual:
La respuesta simple es que (la mayoría) los ingenieros de software son muy débiles en estadísticas y matemáticas. Esta es la ventaja de cualquiera que quiera competir con ellos. Por supuesto, las estadísticas de las personas están fuera de su zona de confort si necesitan escribir un código de producción. El tipo de papel que se vuelve realmente raro es el de Data Scientist. Es alguien que puede escribir código para acceder y jugar con la enorme cantidad de datos y encontrar el valor en ellos.
fuente
De qué se trata
Solo conocer las técnicas es similar a conocer a los animales en un zoológico: puede nombrarlos, describir sus propiedades, tal vez identificarlos en la naturaleza.
Entender cuándo usarlos, formular, construir, probar y desplegar modelos matemáticos en funcionamiento dentro de un área de aplicación, evitando las trampas, estas son las habilidades que distinguen, en mi opinión.
El énfasis debe estar en la ciencia , aplicando un enfoque científico sistemático a los problemas comerciales, industriales y comerciales. Pero esto requiere habilidades más amplias que la minería de datos y el aprendizaje automático, como Robin Bloor argumenta persuasivamente en "A Data Science Rant" .
Entonces, ¿qué se puede hacer?
Áreas de aplicación : conozca varias áreas de aplicación cercanas a su interés o el de su empleador. El área a menudo es menos importante que comprender cómo se construyó el modelo y cómo se usó para agregar valor a esa área. Los modelos que tienen éxito en un área a menudo se pueden trasplantar y aplicar a diferentes áreas que funcionan de manera similar.
Competiciones : pruebe el sitio de competencia de minería de datos Kaggle , preferiblemente uniéndose a un equipo de otros. (Kaggle: una plataforma para competencias de modelado predictivo. Empresas, gobiernos e investigadores presentan conjuntos de datos y problemas y los mejores científicos de datos del mundo compiten para producir las mejores soluciones).
Fundamentos : Hay cuatro: (1) una base sólida en estadística, (2) habilidades de programación razonablemente buenas, (3) comprender cómo estructurar consultas de datos complejas, (4) construir modelos de datos. Si alguno es débil, entonces ese es un lugar importante para comenzar.
Algunas citas a este respecto:
Tenga en cuenta:
Y finalmente:
La mayoría de los problemas reales aplicados no son accesibles únicamente desde `` el mapa ''. Para hacer cosas prácticas con el modelado matemático, uno debe estar dispuesto a ensuciarse con detalles, sutilezas y excepciones. Nada puede sustituir el conocimiento del territorio de primera mano.
fuente
Estoy de acuerdo con todo lo que se ha dicho. Lo que se destaca para mí son:
fuente
Aquí hay un par de cosas que te harán destacar entre la multitud:
El mensaje general que se aplica a los tres puntos: mira el panorama general, no te pierdas en los detalles.
fuente
La habilidad que diferencia a un minero de datos de otros es la capacidad de interpretar modelos de aprendizaje automático. La mayoría construye una máquina, informa el error y luego se detiene. ¿Cuáles son las relaciones matemáticas entre las características? ¿Son los efectos aditivos o no aditivos o ambos? ¿Alguna de las características es irrelevante? ¿Se espera que la máquina bajo la hipótesis nula de que solo hay patrones casuales en los datos? ¿El modelo se generaliza a datos independientes? ¿Qué significan estos patrones para el problema que se estudia? ¿Cuáles son las inferencias? ¿Cuáles son las ideas? ¿Por qué debería emocionarse un experto en dominios? ¿La máquina llevará al experto en dominios a hacer nuevas preguntas y diseñar nuevos experimentos? ¿Puede el minero de datos comunicar efectivamente el modelo y sus implicaciones al mundo?
fuente
Expondría la noción de "habilidades blandas".
reconocer quién es el "experto" para el método X y ser capaz de aprovechar sus conocimientos (no se debe o se puede esperar saber todo acerca de todo). La capacidad y la voluntad de colaborar con otros.
la capacidad de traducir o representar "el mundo real" con las matemáticas utilizadas en ML.
la capacidad de explicar sus métodos de diferentes maneras a diferentes audiencias: saber cuándo centrarse en los detalles y cuándo retroceder y ver el contexto más amplio.
pensamiento de sistemas, poder ver cómo su rol se integra en otras áreas del negocio y cómo estas áreas retroalimentan su trabajo.
Una apreciación y comprensión de la incertidumbre, y tener algunos métodos estructurados para lidiar con ella. Ser capaz de establecer claramente cuáles son sus suposiciones.
fuente
Ser capaz de generalizar bien
Esta es la esencia de un buen modelo. Y es la esencia de lo que hace que los mejores profesionales del arte del aprendizaje automático se destaquen entre la multitud.
Comprender que el objetivo es optimizar el rendimiento en datos no vistos, no minimizar la pérdida de capacitación. Saber cómo evitar el ajuste excesivo y el ajuste insuficiente. Proponer modelos que no sean demasiado complejos pero no demasiado simples para describir el problema. Extrayendo la esencia de un conjunto de entrenamiento, en lugar del máximo posible.
Es sorprendente con qué frecuencia, incluso los profesionales con experiencia en aprendizaje automático, no siguen este principio. Una razón es que los humanos no pueden apreciar dos grandes diferencias de magnitud teoría-práctica :
También es lo que la mayoría de las respuestas anteriores dijeron de maneras más específicas y concretas. generalizar bien es la forma más corta que se me ocurre, para decirlo.
fuente
Veo que hay dos partes mientras manejo el aprendizaje automático en la práctica
Ingeniería (que cubre todos los algoritmos, aprendizaje de diferentes paquetes, programación).
Curiosidad / Razonamiento (capacidad de hacer mejores preguntas a los datos).
Creo que 'curiosidad / razonamiento' es la habilidad que distingue a uno de los demás. Por ejemplo, si ve las tablas de clasificación de las finalizaciones de kaggle, muchas personas pueden haber usado algoritmos comunes (similares), lo que hace la diferencia es cómo cuestionar lógicamente los datos y formularlos.
fuente