Después de graduarme recientemente de mi programa de doctorado en estadística, durante los últimos meses comencé a buscar trabajo en el campo de la estadística. Casi todas las compañías que consideraba tenían un puesto de trabajo con un título de " Data Scientist ". De hecho, parecía que habían quedado atrás los días de ver títulos de trabajo de Estadístico Científico o Estadístico . ¿Ser un científico de datos realmente había reemplazado lo que era ser estadístico o los títulos eran sinónimos?
Bueno, la mayoría de las calificaciones para los trabajos se sentían como cosas que calificarían bajo el título de estadístico. La mayoría de los trabajos querían un doctorado en estadística ( ), la mayoría requería comprensión del diseño experimental ( ), regresión lineal y anova ( ), modelos lineales generalizados ( ) y otros métodos multivariados como PCA ( ) , así como el conocimiento en un entorno informático estadístico como R o SAS ( ). Parece que un científico de datos es realmente solo un nombre en clave para el estadístico.✓ ✓ ✓ ✓ ✓
Sin embargo, cada entrevista a la que fui comenzó con la pregunta: "Entonces, ¿estás familiarizado con los algoritmos de aprendizaje automático?" La mayoría de las veces, tuve que intentar responder preguntas sobre big data, computación de alto rendimiento y temas sobre redes neuronales, CART, máquinas de vectores de soporte, árboles de impulso, modelos no supervisados, etc. Seguro, me convencí de que todo esto era preguntas estadísticas en el fondo, pero al final de cada entrevista no pude evitar dejar la sensación de que sabía cada vez menos sobre qué es un científico de datos.
Soy estadístico, pero ¿soy científico de datos? ¡Trabajo en problemas científicos, así que debo ser científico! ¡Y también trabajo con datos, así que debo ser un científico de datos! Y de acuerdo con Wikipedia, la mayoría de los académicos estarían de acuerdo conmigo ( https://en.wikipedia.org/wiki/Data_science , etc.)
Aunque el uso del término "ciencia de datos" ha explotado en entornos empresariales, muchos académicos y periodistas no ven distinción entre ciencia de datos y estadísticas.
Pero si voy a todas estas entrevistas de trabajo para un puesto de científico de datos, ¿por qué siento que nunca me hacen preguntas estadísticas?
Bueno, después de mi última entrevista, quería que cualquier buen científico lo hiciera y busqué datos para resolver este problema (hey, después de todo, soy un científico de datos). Sin embargo, después de muchas búsquedas en Google más tarde, terminé justo donde comencé a sentir que una vez más estaba lidiando con la definición de lo que era un científico de datos. No sabía exactamente qué era un científico de datos, ya que había tantas definiciones de ello ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) pero parecía que todo el mundo me decía que quería ser uno:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- etc .... la lista continúa.
Bueno, al final del día, lo que descubrí fue "qué es un científico de datos" es una pregunta muy difícil de responder. Diablos, hubo dos meses enteros en Amstat donde dedicaron tiempo a tratar de responder esta pregunta:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Bueno, por ahora, tengo que ser un estadístico sexy para ser un científico de datos, pero espero que la comunidad con validación cruzada pueda arrojar algo de luz y ayudarme a comprender lo que significa ser un científico de datos. ¿No son todos los estadísticos científicos de datos?
(Editar / Actualizar)
Pensé que esto podría darle vida a la conversación. Acabo de recibir un correo electrónico de la Asociación Americana de Estadística acerca de un puesto de trabajo con Microsoft en busca de un científico de datos. Aquí está el enlace: Posición del científico de datos . Creo que esto es interesante porque el papel de la posición afecta a muchos rasgos específicos de los que hemos estado hablando, pero creo que muchos de ellos requieren un fondo muy riguroso en estadísticas, además de contradecir muchas de las respuestas publicadas a continuación. En caso de que el enlace falle, estas son las cualidades que Microsoft busca en un científico de datos:
Requisitos y habilidades laborales principales:
Experiencia de dominio empresarial usando Analytics
- Debe tener experiencia en varios dominios comerciales relevantes en la utilización de habilidades de pensamiento crítico para conceptualizar problemas comerciales complejos y sus soluciones utilizando análisis avanzados en conjuntos de datos comerciales del mundo real a gran escala.
- El candidato debe ser capaz de ejecutar proyectos analíticos de forma independiente y ayudar a nuestros clientes internos a comprender los resultados y traducirlos en acción para beneficiar a su negocio.
Modelado predictivo
- Experiencia en todas las industrias en modelado predictivo
- Definición de problemas de negocio y modelado conceptual con el cliente para generar relaciones importantes y definir el alcance del sistema
Estadística / Econometría
- Análisis de datos exploratorios para datos continuos y categóricos.
- Especificación y estimación de ecuaciones del modelo estructural para el comportamiento de la empresa y el consumidor, el costo de producción, la demanda de factores, la elección discreta y otras relaciones tecnológicas, según sea necesario.
- Técnicas estadísticas avanzadas para analizar datos continuos y categóricos.
- Análisis de series temporales e implementación de modelos de pronóstico.
- Conocimiento y experiencia en el trabajo con problemas de múltiples variables.
- Capacidad para evaluar la corrección del modelo y realizar pruebas de diagnóstico.
- Capacidad para interpretar estadísticas o modelos económicos.
- Conocimiento y experiencia en la construcción de simulación de eventos discretos y modelos de simulación dinámica.
Gestión de datos
- Familiaridad con el uso de T-SQL y análisis para la transformación de datos y la aplicación de técnicas exploratorias de análisis de datos para conjuntos de datos muy grandes del mundo real
- Atención a la integridad de los datos, incluida la redundancia de datos, la precisión de los datos, los valores anormales o extremos, las interacciones de los datos y los valores faltantes.
Habilidades de comunicación y colaboración
- Trabaje de manera independiente y pueda trabajar con un equipo de proyecto virtual que investigará soluciones innovadoras para problemas comerciales desafiantes
- Colaborar con socios, aplicar habilidades de pensamiento crítico e impulsar proyectos analíticos de extremo a extremo
- Habilidades de comunicación superiores, tanto verbales como escritas.
- Visualización de resultados analíticos en una forma que sea consumible por un conjunto diverso de partes interesadas.
Paquetes de programas
- Paquetes de software estadísticos / econométricos avanzados: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Exploración, visualización y gestión de datos: T-SQL, Excel, PowerBI y herramientas equivalentes.
Calificaciones:
- Se requiere un mínimo de 5 años de experiencia relacionada
- Postgrado en campo cuantitativo es deseable.
fuente
Respuestas:
Hay algunas definiciones humorísticas que aún no se dieron:
Me gusta este, ya que juega muy bien en el ángulo de más bombo que sustancia.
Del mismo modo, esto riffs en la costa oeste de todo esto.
Personalmente, encuentro la discusión (en general, y aquí) algo aburrida y repetitiva. Cuando pensaba en lo que quería --- tal vez hace un cuarto de siglo o más --- apunté a un analista cuantitativo. Eso sigue siendo lo que hago (¡y amo!) Y se superpone y cubre principalmente lo que se dio aquí en varias respuestas.
(Nota: hay una fuente anterior para la cita dos, pero no puedo encontrarla en este momento).
fuente
I find the discussion (in general, and here) somewhat boring and repetitive
y vano hablar de pequeñeces o nuevas palabras zumbido, añadiría. Todavía no puedo diferenciar después entre científicos de datos, científicos cristianos y científicos de datos.La gente define la ciencia de datos de manera diferente, pero creo que la parte común es:
Contrariamente a su nombre, rara vez es "ciencia". Es decir, en ciencia de datos, el énfasis está en resultados prácticos (como en ingeniería), no en pruebas, pureza matemática o rigor característicos de la ciencia académica. Las cosas deben funcionar, y hay poca diferencia si se basa en un trabajo académico, el uso de una biblioteca existente, su propio código o un truco improvisado.
Estadístico no es necesario un programador (puede usar lápiz y papel y un software dedicado). Además, algunas llamadas de trabajo en ciencia de datos no tienen nada que ver con las estadísticas. Por ejemplo, se trata de ingeniería de datos como el procesamiento de datos grandes, incluso si las matemáticas más avanzadas pueden haber un cálculo promedio (personalmente, sin embargo, no llamaría a esta actividad "ciencia de datos"). Además, la "ciencia de los datos" se promociona, por lo que los trabajos relacionados tangencialmente usan este título para atraer a los solicitantes o aumentar el ego de los trabajadores actuales.
Me gusta la taxonomía de la respuesta de Michael Hochster sobre Quora :
En ese sentido, el Científico de Datos Tipo A es un estadístico que puede programar. Pero, incluso para la parte cuantitativa, puede haber personas con más experiencia en ciencias de la computación (por ejemplo, aprendizaje automático) que estadísticas regulares, o personas que se centran, por ejemplo, en la visualización de datos.
Y el diagrama de Venn de ciencia de datos (aquí: piratería ~ programación):
ver también diagramas de Venn alternativos ( esto y aquello ). O incluso un tweet , aunque humorístico, que muestra una lista equilibrada de habilidades y actividades típicas de un científico de datos:
Vea también esta publicación: ¿ Científico de datos: estadístico, programador, consultor y visualizador? .
fuente
Hay una serie de encuestas del campo de la ciencia de datos. Me gusta este , porque intenta analizar los perfiles de las personas que realmente tienen trabajos de ciencia de datos. En lugar de usar evidencia anecdótica o sesgos del autor, usan técnicas de ciencia de datos para analizar el ADN del científico de datos.
Es bastante revelador observar las habilidades enumeradas por los científicos de datos. Observe que las 20 habilidades principales contienen muchas habilidades de TI.
ACTUALIZAR:
Si haces un doctorado, lo más probable es que ya seas un científico, especialmente si has publicado artículos e investigaciones activas. Sin embargo, no es necesario ser científico para ser un científico de datos. Hay algunos roles en algunas empresas, como Walmart (ver más abajo), donde se requiere doctorado, pero generalmente los científicos de datos tienen títulos de BS y MS como se puede ver en los ejemplos a continuación.
Como puede deducir de la tabla anterior, lo más probable es que tenga que tener buenas habilidades de programación y manejo de datos. Además, a menudo la ciencia de datos está asociada con cierto nivel, a menudo "profundo", de experiencia en aprendizaje automático. Ciertamente puede llamarse a sí mismo un científico de datos si tiene un doctorado en estadísticas. Sin embargo, el doctorado en ciencias de la computación de las mejores escuelas puede ser más competitivo que los graduados de estadísticas, porque pueden tener un conocimiento estadístico aplicado bastante fuerte que se complementa con fuertes habilidades de programación, una combinación buscada por los empleadores. Para contrarrestarlos, debes adquirir fuertes habilidades de programación, por lo que en general serás muy competitivo. Lo interesante es que, por lo general, todos los doctorados estadísticos tendrán cierta experiencia en programación, pero en ciencia de datos, a menudo, el requisito es mucho mayor que eso,
Para mí, la ventaja de tener un doctorado en estadísticas está en el problema capturado en el resto de la frase "un gato de todos los oficios" que generalmente se deja caer: "un maestro de ninguno". Es bueno tener personas que sepan un poco de todo, pero siempre busco personas que también sepan algo, ya sea estadística o informática no es tan importante. Lo que importa es que el tipo es capaz de llegar al fondo, es una cualidad práctica cuando la necesitas.
La encuesta también enumera los principales empleadores de científicos de datos. Microsoft está en la cima, aparentemente, lo que me sorprendió. Si desea tener una mejor idea de lo que está buscando, es útil buscar en LinkeIn con "ciencia de datos" en la sección Empleos. A continuación hay dos extractos de los trabajos de MS y Walmart en LinkedIn para hacer un punto.
Científico de datos de Microsoft
Tenga en cuenta que conocer los paquetes de estadísticas es solo una ventaja, pero se requieren excelentes habilidades de programación en Java.
Walmart, científico de datos
Aquí, se prefiere el doctorado, pero solo se menciona la especialización en informática. La informática distribuida con Hadoop o Spark es probablemente una habilidad inusual para un estadístico, pero algunos físicos teóricos y matemáticos aplicados usan herramientas similares.
ACTUALIZACIÓN 2:
"Ya es hora de matar el título de" científico de datos "", dice Thomas Davenport, quien coescribió el artículo en Harvard Business Review en 2012 titulado "Científico de datos: el trabajo más sexy del siglo XXI" que comenzó la locura del científico de datos:
fuente
En algún lugar he leído esto (EDITAR: Josh Will está explicando su tweet ):
Esta cita puede explicarse brevemente por este proceso de ciencia de datos . El primer vistazo a este esquema parece "bueno, ¿dónde está la parte de programación?", Pero si tiene toneladas de datos, debe poder procesarlos.
fuente
He escrito varias respuestas y cada vez se hicieron largas y finalmente decidí que me estaba levantando en una caja de jabón. Pero creo que esta conversación no ha explorado completamente dos factores importantes:
La ciencia en la ciencia de datos. Un enfoque científico es aquel en el que intenta destruir sus propios modelos, teorías, características, opciones técnicas, etc., y solo cuando no puede hacerlo, acepta que sus resultados podrían ser útiles. Es una mentalidad y muchos de los mejores científicos de datos que he conocido tienen experiencia en ciencias duras (química, biología, ingeniería).
La ciencia de datos es un campo amplio. Un buen resultado de Data Science generalmente involucra un pequeño equipo de Data Scientists, cada uno con su propia especialidad. Por ejemplo, un miembro del equipo es más riguroso y estadístico, otro es un mejor programador con experiencia en ingeniería y otro es un consultor sólido con conocimientos de negocios. Los tres aprenden rápidamente el tema, y los tres son curiosos y quieren encontrar la verdad, por dolorosa que sea, y hacer lo que sea mejor para el cliente (interno o externo), incluso si el cliente no No entiendo
La moda en los últimos años, creo que ahora se está desvaneciendo, es reclutar informáticos que dominen las tecnologías de clúster (ecosistema Hadoop, etc.) y decir que ese es el científico de datos ideal. Creo que eso es lo que el OP ha encontrado, y le aconsejaría que empuje sus fortalezas con rigor, corrección y pensamiento científico.
fuente
Creo que Bitwise cubre la mayor parte de mi respuesta, pero voy a agregar mi 2c.
No, lo siento, pero un estadístico no es un científico de datos, al menos en función de cómo la mayoría de las empresas definen el papel hoy. Tenga en cuenta que la definición ha cambiado con el tiempo, y uno de los desafíos de los profesionales es asegurarse de que sigan siendo relevantes.
Compartiré algunas razones comunes sobre por qué rechazamos candidatos para los roles de "Científico de datos":
Por supuesto, para un papel junior no puedes tener todo lo anterior. Pero, ¿cuántas de estas habilidades puede permitirse perder y retomar en el trabajo?
Finalmente, para aclarar, la razón más común para rechazar a los no estadísticos es exactamente la falta de un conocimiento básico de las estadísticas. Y en algún lugar existe la diferencia entre un ingeniero de datos y un científico de datos. Sin embargo, los ingenieros de datos tienden a solicitar estos roles, ya que muchas veces creen que las "estadísticas" son solo el promedio, la variación y la distribución normal. Por lo tanto, podemos agregar algunas palabras de moda estadísticas relevantes pero aterradoras en las descripciones de trabajo para aclarar lo que queremos decir con "estadísticas" y evitar la confusión.
fuente
Permítanme ignorar las exageraciones y las palabras de moda. Creo que "Data Scientist" (o como quieras llamarlo) es algo real y que es distinto de un estadístico. Hay muchos tipos de puestos que efectivamente son científicos de datos pero no reciben ese nombre; un ejemplo son las personas que trabajan en genómica.
Desde mi punto de vista, un científico de datos es alguien que tiene las habilidades y la experiencia para diseñar y ejecutar investigaciones sobre grandes cantidades de datos complejos (por ejemplo, altamente dimensionales en los que los mecanismos subyacentes son desconocidos y complejos).
Esto significa:
fuente
Todas las grandes respuestas, sin embargo, en mi experiencia de búsqueda de empleo, he notado que el término "científico de datos" ha sido confundido con "analista de datos junior" en la mente de los reclutadores con los que estuve en contacto. Por lo tanto, muchas personas agradables sin experiencia en estadísticas, aparte de ese curso introductorio de un término que hicieron hace un par de años, ahora se llaman a sí mismos científicos de datos. Como alguien que con experiencia en informática y años de experiencia como analista de datos, hice un doctorado en Estadística más adelante en mi carrera pensando que me ayudaría a destacar entre la multitud, me encuentro en una multitud inesperadamente grande de "científicos de datos ". ¡Creo que podría volver al "estadístico"!
fuente
Soy un empleado menor, pero mi título de trabajo es "científico de datos". Creo que la respuesta de Bitwise es una descripción adecuada de lo que me contrataron para hacer, pero me gustaría agregar un punto más basado en mi experiencia diaria en el trabajo:
La ciencia es un proceso de investigación. Cuando los datos son el medio por el cual se realiza esa investigación, la ciencia de datos está sucediendo. No significa que todos los que experimentan o investigan con datos sean necesariamente científicos de datos, de la misma manera que no todos los que experimentan o investigan con cableado son necesariamente ingenieros eléctricos. Pero sí significa que uno puede adquirir suficiente capacitación para convertirse en un "investigador de datos" profesional, de la misma manera que uno puede adquirir suficiente capacitación para convertirse en un electricista profesional. Esa capacitación se compone más o menos de los puntos en la respuesta de Bitwise, de los cuales las estadísticas son un componente pero no la totalidad.
La respuesta de Piotr también es un buen resumen de todas las cosas que
necesito hacer ydesearía saber cómo hacerlo en una semana determinada. Mi trabajo hasta ahora ha sido principalmente ayudar a deshacer el daño causado por antiguos empleados que pertenecían al componente "Zona de peligro" del diagrama de Venn.fuente
También me interesé recientemente en la ciencia de datos como una carrera, y cuando pienso en lo que aprendí sobre el trabajo de ciencia de datos en comparación con los numerosos cursos de estadística que tomé (¡y disfruté!), Comencé a pensar en los científicos de datos como científicos informáticos que centraron su atención en los datos. En particular, noté las siguientes diferencias principales. Tenga en cuenta sin embargo que las diferencias parecen estado de ánimo. Lo siguiente solo refleja mis impresiones subjetivas, y no pretendo generalidad. Solo mis impresiones!
En estadística, le importan mucho las distribuciones, las probabilidades y los procedimientos inferenciales (cómo hacer pruebas de hipótesis, que son las distribuciones subyacentes, etc.). Por lo que entiendo, la ciencia de datos es más frecuente que predicción, y las preocupaciones sobre las declaraciones inferenciales son absorbidas en cierta medida por los procedimientos de la informática, como la validación cruzada.
En los cursos de estadística, a menudo solo creé mis propios datos, o usé algunos datos listos para usar que están disponibles en un formato bastante limpio. Eso significa que está en un bonito formato rectangular, alguna hoja de cálculo de Excel o algo así que se adapta muy bien a la RAM. La limpieza de datos seguramente está involucrada, pero nunca tuve que lidiar con la "extracción" de datos de la web, y mucho menos de las bases de datos que tuvieron que configurarse para mantener una cantidad de datos que ya no cabe en la RAM. Mi impresión es que este aspecto computacional es mucho más dominante en la ciencia de datos.
Tal vez esto refleja mi ignorancia sobre lo que hacen los estadísticos en los trabajos estadísticos típicos, pero antes de la ciencia de datos nunca pensé en construir modelos en un producto más grande. Había que hacer un análisis, resolver un problema estadístico, estimar algún parámetro y eso es todo. En ciencia de datos, parece que a menudo (aunque no siempre) los modelos predictivos están integrados en algo más grande. Por ejemplo, hace clic en algún lugar y, en milisegundos, un algoritmo predictivo habrá decidido lo que se muestra como resultado. Entonces, mientras que en estadística, siempre me pregunté "qué parámetro podemos estimar y cómo lo hacemos de manera elegante", parece que en ciencia de datos el foco está más en "qué podemos predecir que sea potencialmente útil en un producto de datos" .
Nuevamente, lo anterior no intenta dar una definición general. Solo estoy señalando las principales diferencias que me he percibido. Todavía no estoy en ciencia de datos, pero espero hacer la transición el próximo año. En este sentido, tome mis dos centavos aquí con un grano de sal.
fuente
Digo que un Data Scientist es un rol en el que uno crea resultados legibles para las empresas, utilizando los métodos para hacer que el resultado sea estadísticamente sólido (significativo).
Si no se sigue alguna parte de esta definición, hablamos sobre un desarrollador, un verdadero científico / estadístico o un ingeniero de datos.
fuente
Siempre me gusta cortar a la esencia del asunto.
fuente
La ciencia de datos es una combinación multidisciplinaria de inferencia de datos, desarrollo de algoritmos y tecnología para resolver problemas analíticamente complejos. Pero debido a la escasez de científicos de datos, una carrera en ciencia de datos realmente puede crear numerosas oportunidades. Sin embargo, las organizaciones buscan profesionales certificados de SAS, Data Science Council of America (DASCA), Hortonworks, etc. ¡Espero que sea una buena información!
fuente
Los científicos de datos tienen habilidades muy competentes en desarrollo de Python, MySQL y Java.
Tienen una comprensión muy clara de las funciones analíticas, muy bien en matemáticas, estadísticas, minería de datos, habilidades de análisis predictivo y también tienen un muy buen conocimiento de los lenguajes de codificación como Python y R.
Muchos científicos de datos ahora tienen su Ph.D. o su maestría en realidad, según la investigación, solo alrededor del 8% tiene simplemente una licenciatura, por lo que es mucho más profundo.
Construyendo modelos estadísticos que toman decisiones basadas en datos. Cada decisión puede ser difícil, por ejemplo, bloquear el procesamiento de una página, o suave, por ejemplo, asignar un puntaje por la malicia de una página, que es utilizada por sistemas anteriores o humanos.
Realización de experimentos de causalidad que intentan atribuir la causa raíz de un fenómeno observado. Esto se puede hacer diseñando experimentos A / B o si el experimento A / B no es posible aplicar un enfoque epidemiológico al problema, por ejemplo, el modelo causal @ Rubin
Identificar nuevos productos o características que provienen de desbloquear el valor de los datos; ser un líder de pensamiento sobre el valor de los datos. Un buen ejemplo de eso es la función de recomendaciones de productos que Amazon primero puso a disposición de una audiencia masiva.
fuente
Para responder a su pregunta "¿Qué es un científico de datos?" Puede valer la pena ser consciente de la diferencia entre un Científico de Datos y un Mecánico de Datos como se señala en http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/
fuente