¿Qué es un científico de datos?

181

Después de graduarme recientemente de mi programa de doctorado en estadística, durante los últimos meses comencé a buscar trabajo en el campo de la estadística. Casi todas las compañías que consideraba tenían un puesto de trabajo con un título de " Data Scientist ". De hecho, parecía que habían quedado atrás los días de ver títulos de trabajo de Estadístico Científico o Estadístico . ¿Ser un científico de datos realmente había reemplazado lo que era ser estadístico o los títulos eran sinónimos?

Bueno, la mayoría de las calificaciones para los trabajos se sentían como cosas que calificarían bajo el título de estadístico. La mayoría de los trabajos querían un doctorado en estadística ( ), la mayoría requería comprensión del diseño experimental ( ), regresión lineal y anova ( ), modelos lineales generalizados ( ) y otros métodos multivariados como PCA ( ) , así como el conocimiento en un entorno informático estadístico como R o SAS ( ). Parece que un científico de datos es realmente solo un nombre en clave para el estadístico.

Sin embargo, cada entrevista a la que fui comenzó con la pregunta: "Entonces, ¿estás familiarizado con los algoritmos de aprendizaje automático?" La mayoría de las veces, tuve que intentar responder preguntas sobre big data, computación de alto rendimiento y temas sobre redes neuronales, CART, máquinas de vectores de soporte, árboles de impulso, modelos no supervisados, etc. Seguro, me convencí de que todo esto era preguntas estadísticas en el fondo, pero al final de cada entrevista no pude evitar dejar la sensación de que sabía cada vez menos sobre qué es un científico de datos.

Soy estadístico, pero ¿soy científico de datos? ¡Trabajo en problemas científicos, así que debo ser científico! ¡Y también trabajo con datos, así que debo ser un científico de datos! Y de acuerdo con Wikipedia, la mayoría de los académicos estarían de acuerdo conmigo ( https://en.wikipedia.org/wiki/Data_science , etc.)

Aunque el uso del término "ciencia de datos" ha explotado en entornos empresariales, muchos académicos y periodistas no ven distinción entre ciencia de datos y estadísticas.

Pero si voy a todas estas entrevistas de trabajo para un puesto de científico de datos, ¿por qué siento que nunca me hacen preguntas estadísticas?

Bueno, después de mi última entrevista, quería que cualquier buen científico lo hiciera y busqué datos para resolver este problema (hey, después de todo, soy un científico de datos). Sin embargo, después de muchas búsquedas en Google más tarde, terminé justo donde comencé a sentir que una vez más estaba lidiando con la definición de lo que era un científico de datos. No sabía exactamente qué era un científico de datos, ya que había tantas definiciones de ello ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) pero parecía que todo el mundo me decía que quería ser uno:

Bueno, al final del día, lo que descubrí fue "qué es un científico de datos" es una pregunta muy difícil de responder. Diablos, hubo dos meses enteros en Amstat donde dedicaron tiempo a tratar de responder esta pregunta:

Bueno, por ahora, tengo que ser un estadístico sexy para ser un científico de datos, pero espero que la comunidad con validación cruzada pueda arrojar algo de luz y ayudarme a comprender lo que significa ser un científico de datos. ¿No son todos los estadísticos científicos de datos?


(Editar / Actualizar)

Pensé que esto podría darle vida a la conversación. Acabo de recibir un correo electrónico de la Asociación Americana de Estadística acerca de un puesto de trabajo con Microsoft en busca de un científico de datos. Aquí está el enlace: Posición del científico de datos . Creo que esto es interesante porque el papel de la posición afecta a muchos rasgos específicos de los que hemos estado hablando, pero creo que muchos de ellos requieren un fondo muy riguroso en estadísticas, además de contradecir muchas de las respuestas publicadas a continuación. En caso de que el enlace falle, estas son las cualidades que Microsoft busca en un científico de datos:

Requisitos y habilidades laborales principales:

Experiencia de dominio empresarial usando Analytics

  • Debe tener experiencia en varios dominios comerciales relevantes en la utilización de habilidades de pensamiento crítico para conceptualizar problemas comerciales complejos y sus soluciones utilizando análisis avanzados en conjuntos de datos comerciales del mundo real a gran escala.
  • El candidato debe ser capaz de ejecutar proyectos analíticos de forma independiente y ayudar a nuestros clientes internos a comprender los resultados y traducirlos en acción para beneficiar a su negocio.

Modelado predictivo

  • Experiencia en todas las industrias en modelado predictivo
  • Definición de problemas de negocio y modelado conceptual con el cliente para generar relaciones importantes y definir el alcance del sistema

Estadística / Econometría

  • Análisis de datos exploratorios para datos continuos y categóricos.
  • Especificación y estimación de ecuaciones del modelo estructural para el comportamiento de la empresa y el consumidor, el costo de producción, la demanda de factores, la elección discreta y otras relaciones tecnológicas, según sea necesario.
  • Técnicas estadísticas avanzadas para analizar datos continuos y categóricos.
  • Análisis de series temporales e implementación de modelos de pronóstico.
  • Conocimiento y experiencia en el trabajo con problemas de múltiples variables.
  • Capacidad para evaluar la corrección del modelo y realizar pruebas de diagnóstico.
  • Capacidad para interpretar estadísticas o modelos económicos.
  • Conocimiento y experiencia en la construcción de simulación de eventos discretos y modelos de simulación dinámica.

Gestión de datos

  • Familiaridad con el uso de T-SQL y análisis para la transformación de datos y la aplicación de técnicas exploratorias de análisis de datos para conjuntos de datos muy grandes del mundo real
  • Atención a la integridad de los datos, incluida la redundancia de datos, la precisión de los datos, los valores anormales o extremos, las interacciones de los datos y los valores faltantes.

Habilidades de comunicación y colaboración

  • Trabaje de manera independiente y pueda trabajar con un equipo de proyecto virtual que investigará soluciones innovadoras para problemas comerciales desafiantes
  • Colaborar con socios, aplicar habilidades de pensamiento crítico e impulsar proyectos analíticos de extremo a extremo
  • Habilidades de comunicación superiores, tanto verbales como escritas.
  • Visualización de resultados analíticos en una forma que sea consumible por un conjunto diverso de partes interesadas.

Paquetes de programas

  • Paquetes de software estadísticos / econométricos avanzados: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
  • Exploración, visualización y gestión de datos: T-SQL, Excel, PowerBI y herramientas equivalentes.

Calificaciones:

  • Se requiere un mínimo de 5 años de experiencia relacionada
  • Postgrado en campo cuantitativo es deseable.
OxidadoEstadístico
fuente
66
¡Buena pregunta! Me he estado preguntando mucho sobre esto últimamente. En mi opinión, parece que los trabajos que incluyen científicos de datos en la descripción buscan personas que puedan aplicar métodos estadísticos / ML que escalen bien, no necesariamente personas que puedan lidiar con la teoría. Todavía creo que hay algo de redundancia en estas descripciones de trabajo. Requerir un doctorado es a menudo una sobrecalificación y las personas de recursos humanos que hacen estas descripciones de trabajo están fuertemente influenciadas por el zumbido en torno a los grandes datos. ¿Es un científico de datos un estadístico o viceversa? Es la pregunta principal que quiero ver respondida.
Gumeo
44
Creo que este es un excelente artículo que aborda este cambio en las culturas de ser un estadístico versus ser un científico de datos: projecteuclid.org/download/pdf_1/euclid.ss/1009213726
RustyStatistician
66
"Pero si voy a todas estas entrevistas de trabajo para un puesto de científico de datos, ¿por qué parece que nunca me hacen preguntas estadísticas" ... historia de mi vida ... literalmente LOL! Creo que la ciencia de datos, estadísticas, econometría, biostat, etc. tienen una superposición considerable, pero todos usan una jerga diferente que dificulta la comunicación (especialmente cuando una persona de recursos humanos lo está entrevistando y no está bien informado y se enfoca en palabras clave). Es de esperar que el aumento de los esfuerzos interdisciplinarios y una mentalidad abierta muy necesaria cambie esto en el futuro.
Zachary Blumenfeld
99
He seguido el "auge del científico de datos" desde que se convirtió en la corriente principal en aproximadamente 2008. Para mí, fue y es principalmente un término de marketing que alimentó una exageración: las disciplinas estadísticas, aprendizaje automático, ingeniería de datos, análisis de datos son todos Lo mismo con diferente énfasis. Parafraseando a G. Box: Si se le hacen preguntas como "¿Es usted bayesiano, frecuentista, analista de datos, diseñador de experimentos, científico de datos?" Decir que sí".
Momo
10
@Momo: Sin embargo, si uno abre uno de los libros de texto de más de 600 páginas llamado "Aprendizaje automático" (o similar) y uno de los libros de texto llamados "Estadísticas" (o similar), habrá muy poca superposición. El reconocimiento de patrones y el aprendizaje automático de My Bishop's o el aprendizaje automático de Murphy tienen una intersección casi nula con la teoría de la estimación de puntos de Lehman & Casella , la inferencia estadística de Casella & Berger o los experimentos de diseño y análisis de datos de Maxwell & Delaney . Son tan diferentes que creo que las personas familiarizadas con un conjunto de libros podrían tener problemas para leer el otro.
ameba

Respuestas:

52

Hay algunas definiciones humorísticas que aún no se dieron:

Científico de datos: alguien que hace estadísticas en una Mac.

Me gusta este, ya que juega muy bien en el ángulo de más bombo que sustancia.

Científico de datos: un estadístico que vive en San Francisco.

Del mismo modo, esto riffs en la costa oeste de todo esto.

Personalmente, encuentro la discusión (en general, y aquí) algo aburrida y repetitiva. Cuando pensaba en lo que quería --- tal vez hace un cuarto de siglo o más --- apunté a un analista cuantitativo. Eso sigue siendo lo que hago (¡y amo!) Y se superpone y cubre principalmente lo que se dio aquí en varias respuestas.

(Nota: hay una fuente anterior para la cita dos, pero no puedo encontrarla en este momento).

Dirk Eddelbuettel
fuente
27
+1. I find the discussion (in general, and here) somewhat boring and repetitivey vano hablar de pequeñeces o nuevas palabras zumbido, añadiría. Todavía no puedo diferenciar después entre científicos de datos, científicos cristianos y científicos de datos.
ttnphns
1
LOL @ data scientologists.
dsaxton
44
Y le doy mi sombrero a la persona muy seria (por supuesto anónima) que acaba de llegar, rechazó y no dejó ninguna razón. Pista: no es así como mejora la discusión.
Dirk Eddelbuettel
1
Siendo un estadístico en el sur de San Francisco que está luchando muy activamente contra el título de Data Scientist, la segunda definición llega demasiado cerca de casa (pero yo no era el votante negativo).
Cliff AB
1
(+1) @CliffAB En realidad también soy un estadístico en el sur de San Francisco.
RustyStatistician
87

La gente define la ciencia de datos de manera diferente, pero creo que la parte común es:

  • conocimiento práctico de cómo manejar datos,
  • habilidades prácticas de programación.

Contrariamente a su nombre, rara vez es "ciencia". Es decir, en ciencia de datos, el énfasis está en resultados prácticos (como en ingeniería), no en pruebas, pureza matemática o rigor característicos de la ciencia académica. Las cosas deben funcionar, y hay poca diferencia si se basa en un trabajo académico, el uso de una biblioteca existente, su propio código o un truco improvisado.

Estadístico no es necesario un programador (puede usar lápiz y papel y un software dedicado). Además, algunas llamadas de trabajo en ciencia de datos no tienen nada que ver con las estadísticas. Por ejemplo, se trata de ingeniería de datos como el procesamiento de datos grandes, incluso si las matemáticas más avanzadas pueden haber un cálculo promedio (personalmente, sin embargo, no llamaría a esta actividad "ciencia de datos"). Además, la "ciencia de los datos" se promociona, por lo que los trabajos relacionados tangencialmente usan este título para atraer a los solicitantes o aumentar el ego de los trabajadores actuales.

Me gusta la taxonomía de la respuesta de Michael Hochster sobre Quora :

Científico de datos tipo A: La A es para análisis. Este tipo se ocupa principalmente de dar sentido a los datos o trabajar con ellos de una manera bastante estática. El Científico de datos tipo A es muy similar a un estadístico (y puede ser uno) pero conoce todos los detalles prácticos de trabajar con datos que no se enseñan en el plan de estudios estadístico: limpieza de datos, métodos para manejar conjuntos de datos muy grandes, visualización , profundo conocimiento de un dominio particular, escribir bien sobre datos, etc.

Científico de datos tipo B: El B es para construir. Los científicos de datos tipo B comparten algunos antecedentes estadísticos con el tipo A, pero también son codificadores muy fuertes y pueden ser ingenieros de software capacitados. El Científico de Datos Tipo B está interesado principalmente en usar datos "en producción". Construyen modelos que interactúan con los usuarios, a menudo sirviendo recomendaciones (productos, personas que quizás conozcas, anuncios, películas, resultados de búsqueda).

En ese sentido, el Científico de Datos Tipo A es un estadístico que puede programar. Pero, incluso para la parte cuantitativa, puede haber personas con más experiencia en ciencias de la computación (por ejemplo, aprendizaje automático) que estadísticas regulares, o personas que se centran, por ejemplo, en la visualización de datos.

Y el diagrama de Venn de ciencia de datos (aquí: piratería ~ programación):

El diagrama de Venn de ciencia de datos

ver también diagramas de Venn alternativos ( esto y aquello ). O incluso un tweet , aunque humorístico, que muestra una lista equilibrada de habilidades y actividades típicas de un científico de datos:

un científico de datos debería poder

Vea también esta publicación: ¿ Científico de datos: estadístico, programador, consultor y visualizador? .

Piotr Migdal
fuente
14
Me gusta el tweet Añadiría que también debería saber cómo hornear pizza, cultivar verduras ecológicas, escribir poesía y bailar salsa :)
Tim
3
Pequeñas objeciones: no todas las "ciencias" tienen énfasis en "pruebas o pureza matemática". Piensa, por ejemplo, en biología.
ameba
2
¿Qué significa piratear un valor p? Me parece que alguien (también conocido como el cliente) tiene un objetivo de valor p especificado y se supone que el científico de datos debe cortar y cortar los datos para poder alcanzar el objetivo de valor p. ¿O se supone que significa algo diferente?
emory
2
@amory Este tweet es humoristic (es un pastishe de un párrafo de en.wikiquote.org/wiki/Time_Enough_for_Love , "Un ser humano debe ser capaz de [list]. La especialización es para los insectos."). "Hackear un valor p" es ciertamente una práctica oscura (lamentablemente, frecuente en algunas disciplinas académicas), y (espero) está aquí como una broma.
Piotr Migdal
44
+1 por el comentario acerca de no llamar a alguien un Científico de Datos que calcula "estadísticas" simplistas en enormes conjuntos de datos. Creo que estamos saliendo de una fase en Data Science donde los informáticos especializados en computación en clúster (Hadoop, etc.) fueron etiquetados como "Data Scientists". No estoy menospreciando esas habilidades, pero no son tan importantes como las habilidades estadísticas / de razonamiento / investigación y la tecnología va más allá de la reducción de mapas.
Wayne
42

Hay una serie de encuestas del campo de la ciencia de datos. Me gusta este , porque intenta analizar los perfiles de las personas que realmente tienen trabajos de ciencia de datos. En lugar de usar evidencia anecdótica o sesgos del autor, usan técnicas de ciencia de datos para analizar el ADN del científico de datos.

Es bastante revelador observar las habilidades enumeradas por los científicos de datos. Observe que las 20 habilidades principales contienen muchas habilidades de TI.

En el mundo de hoy, se espera que un científico de datos sea un experto en todos los oficios; Un estudiante autónomo que tiene una base cuantitativa sólida, una aptitud para la programación, curiosidad intelectual infinita y excelentes habilidades de comunicación.

ingrese la descripción de la imagen aquí

ACTUALIZAR:

Soy estadístico, pero ¿soy científico de datos? ¡Trabajo en problemas científicos, así que debo ser científico!

Si haces un doctorado, lo más probable es que ya seas un científico, especialmente si has publicado artículos e investigaciones activas. Sin embargo, no es necesario ser científico para ser un científico de datos. Hay algunos roles en algunas empresas, como Walmart (ver más abajo), donde se requiere doctorado, pero generalmente los científicos de datos tienen títulos de BS y MS como se puede ver en los ejemplos a continuación.

Como puede deducir de la tabla anterior, lo más probable es que tenga que tener buenas habilidades de programación y manejo de datos. Además, a menudo la ciencia de datos está asociada con cierto nivel, a menudo "profundo", de experiencia en aprendizaje automático. Ciertamente puede llamarse a sí mismo un científico de datos si tiene un doctorado en estadísticas. Sin embargo, el doctorado en ciencias de la computación de las mejores escuelas puede ser más competitivo que los graduados de estadísticas, porque pueden tener un conocimiento estadístico aplicado bastante fuerte que se complementa con fuertes habilidades de programación, una combinación buscada por los empleadores. Para contrarrestarlos, debes adquirir fuertes habilidades de programación, por lo que en general serás muy competitivo. Lo interesante es que, por lo general, todos los doctorados estadísticos tendrán cierta experiencia en programación, pero en ciencia de datos, a menudo, el requisito es mucho mayor que eso,

Para mí, la ventaja de tener un doctorado en estadísticas está en el problema capturado en el resto de la frase "un gato de todos los oficios" que generalmente se deja caer: "un maestro de ninguno". Es bueno tener personas que sepan un poco de todo, pero siempre busco personas que también sepan algo, ya sea estadística o informática no es tan importante. Lo que importa es que el tipo es capaz de llegar al fondo, es una cualidad práctica cuando la necesitas.

La encuesta también enumera los principales empleadores de científicos de datos. Microsoft está en la cima, aparentemente, lo que me sorprendió. Si desea tener una mejor idea de lo que está buscando, es útil buscar en LinkeIn con "ciencia de datos" en la sección Empleos. A continuación hay dos extractos de los trabajos de MS y Walmart en LinkedIn para hacer un punto.

  • Científico de datos de Microsoft

    • Más de 5 años de experiencia en desarrollo de software en la construcción de sistemas / servicios de procesamiento de datos
    • Grados o títulos superiores en Informática, EE o Matemáticas con especialización en Estadística, Minería de datos o Aprendizaje automático.
    • Excelentes habilidades de programación (C #, Java, Python, etc.) en la manipulación de datos a gran escala
    • Conocimiento práctico de Hadoop u otra tecnología de procesamiento de Big Data
    • El conocimiento de productos analíticos (por ejemplo, R, SQL AS, SAS, Mahout, etc.) es una ventaja.

Tenga en cuenta que conocer los paquetes de estadísticas es solo una ventaja, pero se requieren excelentes habilidades de programación en Java.

  • Walmart, científico de datos

    • Doctorado en informática o campo similar o MS con al menos 2-5 años de experiencia relacionada
    • Buenas habilidades de codificación funcional en C ++ o Java (Java es altamente preferido)
    • debe ser capaz de gastar hasta un 10% de trabajo diario en escribir código de producción en C ++ / Java / Hadoop / Hive
    • Conocimiento a nivel experto de uno de los lenguajes de script como Python o Perl.
    • Experiencia trabajando con grandes conjuntos de datos y herramientas informáticas distribuidas un plus (Map / Reduce, Hadoop, Hive, Spark, etc.)

Aquí, se prefiere el doctorado, pero solo se menciona la especialización en informática. La informática distribuida con Hadoop o Spark es probablemente una habilidad inusual para un estadístico, pero algunos físicos teóricos y matemáticos aplicados usan herramientas similares.

ACTUALIZACIÓN 2:

"Ya es hora de matar el título de" científico de datos "", dice Thomas Davenport, quien coescribió el artículo en Harvard Business Review en 2012 titulado "Científico de datos: el trabajo más sexy del siglo XXI" que comenzó la locura del científico de datos:

¿Qué significa hoy decir que eres, o quieres ser, o quieres contratar, un "científico de datos"? Desafortunadamente, no mucho.

Aksakal
fuente
3
+1 para usar datos y vincular a un buen informe basado en datos. ¿Pero la captura de pantalla necesita una interfaz de navegador web?
Piotr Migdal
@PiotrMigdal, debería aprender a recortar o dejar de ser flojo
Aksakal
44
Te lo recorté.
ameba
1
Tengo la tentación de votar a favor después de la actualización de hoy: este hilo ya está muy ocupado y tener una pared gigantesca de citas para desplazarse hacia abajo no es muy útil en mi opinión ... ¿Quizás los enlaces + resumen breve podrían ser suficientes?
ameba
1
@amoeba, eliminé la lista. Es un comentario justo
Aksakal
39

En algún lugar he leído esto (EDITAR: Josh Will está explicando su tweet ):

El científico de datos es una persona que es mejor en estadística que cualquier programador y mejor en programación que cualquier estadístico.

Esta cita puede explicarse brevemente por este proceso de ciencia de datos . El primer vistazo a este esquema parece "bueno, ¿dónde está la parte de programación?", Pero si tiene toneladas de datos, debe poder procesarlos.

usuario3624251
fuente
11
Entonces, ¿probablemente todos los contribuyentes de R que sean estadísticos sean científicos de datos? ;)
Tim
15
Wow, solo estaba paseando por el sitio, preguntándome acerca de esta pregunta (dado que hay ciencia de datos ) y luego, de paso, ¿aprendí que tengo una maldita página de Wikipedia ? Eso fue nuevo para mí ... Y por lo que vale, me formé en Econometría, no en estadísticas, pero he trabajado como 'cuant' durante más de 20 años. Eso es efectivamente lo mismo que la ciencia de datos ...
Dirk Eddelbuettel
3
-1. Voté a favor no porque no me gusta la cita (de todos modos, probablemente era una locura), sino porque la respuesta es demasiado breve e insustancial, en particular en comparación con muchas otras respuestas aquí. Sugeriría que se convierta en un comentario, a menos que tal vez lo expanda de alguna manera.
ameba
3
Aquí hay una explicación de esta cita de su autor Josh Wills . Los primeros tres párrafos después de la cita son bastante pertinentes para esta discusión.
ameba
3
@amoeba: Me gustó el artículo de Josh Wills hasta este punto: "Sospecho que enseñamos a las personas estadísticas avanzadas de una manera que tiende a asustar a los científicos informáticos al centrarse en modelos paramétricos que requieren mucho cálculo en lugar de modelos no paramétricos que son principalmente computacionales ". Además, no estoy de acuerdo con él en que es más fácil enseñar estadísticas avanzadas a personas de CS que cómo programar bien a los estadísticos (aunque ciertamente estoy de acuerdo en que la mayoría de los estadísticos son programadores terribles).
Cliff AB
15

He escrito varias respuestas y cada vez se hicieron largas y finalmente decidí que me estaba levantando en una caja de jabón. Pero creo que esta conversación no ha explorado completamente dos factores importantes:

  1. La ciencia en la ciencia de datos. Un enfoque científico es aquel en el que intenta destruir sus propios modelos, teorías, características, opciones técnicas, etc., y solo cuando no puede hacerlo, acepta que sus resultados podrían ser útiles. Es una mentalidad y muchos de los mejores científicos de datos que he conocido tienen experiencia en ciencias duras (química, biología, ingeniería).

  2. La ciencia de datos es un campo amplio. Un buen resultado de Data Science generalmente involucra un pequeño equipo de Data Scientists, cada uno con su propia especialidad. Por ejemplo, un miembro del equipo es más riguroso y estadístico, otro es un mejor programador con experiencia en ingeniería y otro es un consultor sólido con conocimientos de negocios. Los tres aprenden rápidamente el tema, y ​​los tres son curiosos y quieren encontrar la verdad, por dolorosa que sea, y hacer lo que sea mejor para el cliente (interno o externo), incluso si el cliente no No entiendo

La moda en los últimos años, creo que ahora se está desvaneciendo, es reclutar informáticos que dominen las tecnologías de clúster (ecosistema Hadoop, etc.) y decir que ese es el científico de datos ideal. Creo que eso es lo que el OP ha encontrado, y le aconsejaría que empuje sus fortalezas con rigor, corrección y pensamiento científico.

Wayne
fuente
@RustyStatistician: De nada. Agregaría que la consultoría para la que trabajo tiene doctorados (ingeniería, biología, astronomía, informática), pero en general considera que los títulos de maestría, a menudo personas con experiencia laboral que vuelven para una maestría en análisis, son el punto óptimo. . Dicho esto, estoy agradecido todos los días por mi compañero de trabajo de doctorado en biología que actualmente está en un proyecto en el que soy el líder tecnológico. Junto con el líder del proyecto que tiene experiencia en economía (y una maestría en análisis), somos un gran equipo. (Mi MS está en Inteligencia Artificial)
Wayne
+1, pero me pregunto si su primer punto dice que la ciencia de datos [buena] es una ciencia. Si es así, es un término curioso y quizás engañoso (?) Porque "ciencia de datos" no está estudiando "datos" en sí mismo; está utilizando datos para estudiar algo más, lo que sea de interés en una aplicación determinada. En contraste, por ejemplo, "ciencia política" debe estudiar política y "neurociencia" está estudiando neuronas, como lo sugieren los nombres.
ameba
1
@amoeba: En realidad, quise decir que un científico de datos debe usar el método científico como Richard Feynman como parte de cómo entienden y usan los datos. (Como usted dice, en busca de una aplicación en particular.) Es la parte estadística del trabajo: "Esta variable parece muy significativa, ¿es una fuga del futuro?" O "Este modelo parece ser razonable, pero ejecutemos CV en todo el proceso de creación del modelo, y luego hagamos un nuevo muestreo además de eso". Está tratando de refutar su modelo / teoría e involucrar a otros para que lo hagan. No aceptar "M & Ms verdes causan cáncer".
Wayne
@Wayne es el único que menciona el "método científico" hasta ahora. Esto es tan triste.
jgomo3
Una comprensión de la física, especialmente de las unidades, es necesaria para cualquiera que intente darle sentido a algo. Sin embargo, en este mundo nuevo y valiente, a menudo es suficiente hacer observaciones heurísticas que tienen un valor predictivo subóptimo como "tapones de gob", pero que no son soluciones reales.
Carl
14

Creo que Bitwise cubre la mayor parte de mi respuesta, pero voy a agregar mi 2c.

No, lo siento, pero un estadístico no es un científico de datos, al menos en función de cómo la mayoría de las empresas definen el papel hoy. Tenga en cuenta que la definición ha cambiado con el tiempo, y uno de los desafíos de los profesionales es asegurarse de que sigan siendo relevantes.

Compartiré algunas razones comunes sobre por qué rechazamos candidatos para los roles de "Científico de datos":

  • Expectativas sobre el alcance del trabajo. Por lo general, el DS debe poder trabajar de forma independiente. Eso significa que no hay nadie más que pueda crear el conjunto de datos para resolver el problema que le fue asignado. Por lo tanto, necesita poder encontrar las fuentes de datos, consultarlas, modelar una solución y, a menudo, también crear un prototipo que resuelva el problema. Muchas veces eso es simplemente la creación de un tablero de instrumentos, una alarma o un informe en vivo que se actualiza constantemente.
  • Comunicación . Parece que muchos estadísticos tienen dificultades para "simplificar" y "vender" sus ideas a los empresarios. ¿Puede mostrar solo un gráfico y contar una historia a partir de los datos de manera que todos en la sala puedan obtenerla? Tenga en cuenta que esto es después de que asegure que puede defender cada bit del análisis si se lo cuestiona.
  • Habilidades de codificación . No necesitamos habilidades de codificación a nivel de producción, ya que tenemos desarrolladores para eso, sin embargo, necesitamos que ella pueda escribir un prototipo e implementarlo como un servicio web en una instancia de AWS EC2. Entonces, las habilidades de codificación no significan la capacidad de escribir scripts R. Puedo agregar fluidez en Linux en algún lugar aquí probablemente. Entonces, la barra es simplemente más alta de lo que la mayoría de los estadísticos tienden a creer.
  • SQL y bases de datos . No, no puede captar eso en el trabajo, ya que realmente necesitamos que adapte el SQL básico que ya conoce y que aprenda cómo consultar los diferentes sistemas de bases de datos que usamos en la organización, incluidos Redshift, HIVE y Presto, cada uno de ellos. que usa su propio sabor de SQL. Además, aprender SQL en el trabajo significa que el candidato creará problemas en cualquier otro analista hasta que aprenda a escribir consultas eficientes.
  • Máquina de aprendizaje . Por lo general, han utilizado la regresión logística o algunas otras técnicas para resolver un problema basado en un conjunto de datos determinado (estilo Kaggle). Sin embargo, incluso si la entrevista comienza con algoritmos y métodos, pronto se enfocará en temas como la generación de características (recuerde que necesita crear el conjunto de datos, no hay nadie más para crearlo por usted), mantenibilidad, escalabilidad y rendimiento, así como los relacionados compensaciones. Para algún contexto, puede consultar un artículo relevante de Google publicado en NIPS 2015.
  • Análisis de texto . No es imprescindible, pero es bueno tener algo de experiencia en el procesamiento del lenguaje natural. Después de todo, una gran parte de los datos está en formato de texto. Como se discutió, no hay nadie más para hacer las transformaciones y limpiar el texto por usted para que sea consumible por un ML u otro enfoque estadístico. Además, tenga en cuenta que hoy en día, incluso los graduados de CS ya han realizado algún proyecto que cumple con este cuadro.

Por supuesto, para un papel junior no puedes tener todo lo anterior. Pero, ¿cuántas de estas habilidades puede permitirse perder y retomar en el trabajo?

Finalmente, para aclarar, la razón más común para rechazar a los no estadísticos es exactamente la falta de un conocimiento básico de las estadísticas. Y en algún lugar existe la diferencia entre un ingeniero de datos y un científico de datos. Sin embargo, los ingenieros de datos tienden a solicitar estos roles, ya que muchas veces creen que las "estadísticas" son solo el promedio, la variación y la distribución normal. Por lo tanto, podemos agregar algunas palabras de moda estadísticas relevantes pero aterradoras en las descripciones de trabajo para aclarar lo que queremos decir con "estadísticas" y evitar la confusión.

iliasfl
fuente
44
Desde 2006 enseño cursos de análisis de datos y estadísticas aplicadas en programas llamados "informática empresarial" en dos universidades y esto se aplica al 100% a lo que aprenden mis alumnos. 1. Necesitan recolectar datos reales, tal vez desordenados de su negocio, la web, encuestas, etc. 2. Limpiar, preparar y almacenar los datos en una base de datos SQL para el curso. 3. Hacer varios análisis estadísticos sobre los datos. 4. Prepare breves resúmenes ejecutivos de 1-2 páginas y escriba un informe detallado con programación literal (knitr o similar). A partir de esa ciencia de datos, la informática empresarial tiene un curso adicional de estadísticas / aprendizaje automático, ¿no?
Momo
44
Claro, su curso cubre muchas de las habilidades requeridas. Supongo que podemos encontrar muchas combinaciones, por ejemplo, licenciatura en informática con algunos cursos de estadísticas y una tesis / pasantía en un problema de negocios basado en el aprendizaje automático. Al final del día, lo que importa es la profundidad y amplitud de las habilidades relevantes que el candidato aporta sobre la mesa.
iliasfl
11

Permítanme ignorar las exageraciones y las palabras de moda. Creo que "Data Scientist" (o como quieras llamarlo) es algo real y que es distinto de un estadístico. Hay muchos tipos de puestos que efectivamente son científicos de datos pero no reciben ese nombre; un ejemplo son las personas que trabajan en genómica.

Desde mi punto de vista, un científico de datos es alguien que tiene las habilidades y la experiencia para diseñar y ejecutar investigaciones sobre grandes cantidades de datos complejos (por ejemplo, altamente dimensionales en los que los mecanismos subyacentes son desconocidos y complejos).

Esto significa:

  • Programación: ser capaz de implementar análisis y canalizaciones, que a menudo requieren cierto nivel de paralelización e interfaz con bases de datos y recursos informáticos de alto rendimiento.
  • Ciencias de la computación (algoritmos): Diseño / elección de algoritmos eficientes de tal manera que el análisis elegido sea factible y se controle la tasa de error. A veces esto también puede requerir conocimiento de análisis numérico, optimización, etc.
  • Ciencias de la computación / estadísticas (generalmente énfasis en el aprendizaje automático): Diseño e implementación de un marco para hacer preguntas sobre los datos o encontrar "patrones" en ellos. Esto incluiría no solo el conocimiento de diferentes pruebas / herramientas / algoritmos, sino también cómo diseñar una retención adecuada, validación cruzada, etc.
  • Modelado: a menudo nos gustaría poder producir algún modelo que ofrezca una representación más simple de los datos, de manera que podamos hacer predicciones útiles y obtener información sobre los mecanismos subyacentes a los datos. Los modelos probabilísticos son muy populares para esto.
  • Experiencia específica de dominio: un aspecto clave de trabajar con éxito con datos complejos es incorporar información específica de dominio. Por lo tanto, diría que es crítico que el científico de datos tenga experiencia en el dominio, pueda aprender rápidamente nuevos campos o pueda interactuar bien con expertos en el campo que puedan proporcionar información útil sobre cómo abordar los datos .
Bitwise
fuente
66
¿Y quién es un estadístico, en su opinión? ¿En qué se diferencia esta lista de habilidades de las habilidades que debería tener un "estadístico"?
ameba
44
@amoeba Puedo estar equivocado, pero muchos estadísticos no tienen algunas de estas habilidades (por ejemplo, programación extensa con conjuntos de datos masivos, capacitación a nivel de posgrado en ciencias de la computación). Además, algunas habilidades estadísticas son irrelevantes para un científico de datos (algunas de teoría, algunos subcampos).
Bitwise
44
@rocinante: Estoy totalmente en desacuerdo con que "programar con 'conjuntos de datos masivos' no es realmente un obstáculo". No creo conocer a nadie con el título de "estadístico" que pueda implementar software que tome decisiones en tiempo real en función de los paquetes entrantes en un servidor. Ciertamente, tampoco todos los científicos de datos podrían hacerlo, pero la proporción es mucho mayor.
Cliff AB
3
@rocinante una buena comprensión de las estadísticas es necesaria pero no suficiente en mi opinión. Con respecto a la profundidad / dificultad de las estadísticas frente a otras habilidades, diría que obtener una buena comprensión del lado de la informática es tan profundo / difícil, si no más. Además, con respecto a las preguntas sobre ese SE, encontrará ese tipo de preguntas en cualquier SE (incluido este); no significa nada, excepto que algunas personas quieren soluciones fáciles sin comprender.
Bitwise
66
Lo único que se cansa en estos debates de "ciencia de datos versus estadísticas" es la sutil implicación de que los científicos de datos son como una raza superior de estadísticos. El hecho es que a medida que aumenta la amplitud de su conocimiento, la profundidad disminuye, y de las personas que son mejores que ignorantes en todas las tareas necesarias para ser un "científico de datos", me imagino que su conocimiento de la mayoría de estas cosas es bastante superficial En general, es extremadamente difícil incluso acercarse a ser experto en cualquiera de los dominios que la gente espera que dominen estos míticos científicos de datos.
dsaxton
7

Todas las grandes respuestas, sin embargo, en mi experiencia de búsqueda de empleo, he notado que el término "científico de datos" ha sido confundido con "analista de datos junior" en la mente de los reclutadores con los que estuve en contacto. Por lo tanto, muchas personas agradables sin experiencia en estadísticas, aparte de ese curso introductorio de un término que hicieron hace un par de años, ahora se llaman a sí mismos científicos de datos. Como alguien que con experiencia en informática y años de experiencia como analista de datos, hice un doctorado en Estadística más adelante en mi carrera pensando que me ayudaría a destacar entre la multitud, me encuentro en una multitud inesperadamente grande de "científicos de datos ". ¡Creo que podría volver al "estadístico"!

Sean
fuente
55
Básicamente veo lo mismo. Cualquier trabajo que solicite algún trabajo con datos o algún análisis se llama "Ciencia de datos". Creo que algo muy similar le sucedió a "Quant" en finanzas, donde cualquiera que trabajara con datos se llamaba a sí mismo "Quant".
Akavall
6

Soy un empleado menor, pero mi título de trabajo es "científico de datos". Creo que la respuesta de Bitwise es una descripción adecuada de lo que me contrataron para hacer, pero me gustaría agregar un punto más basado en mi experiencia diaria en el trabajo:

Data ScienceStatistics,
StatisticsData Science.

La ciencia es un proceso de investigación. Cuando los datos son el medio por el cual se realiza esa investigación, la ciencia de datos está sucediendo. No significa que todos los que experimentan o investigan con datos sean necesariamente científicos de datos, de la misma manera que no todos los que experimentan o investigan con cableado son necesariamente ingenieros eléctricos. Pero sí significa que uno puede adquirir suficiente capacitación para convertirse en un "investigador de datos" profesional, de la misma manera que uno puede adquirir suficiente capacitación para convertirse en un electricista profesional. Esa capacitación se compone más o menos de los puntos en la respuesta de Bitwise, de los cuales las estadísticas son un componente pero no la totalidad.

La respuesta de Piotr también es un buen resumen de todas las cosas que necesito hacer y desearía saber cómo hacerlo en una semana determinada. Mi trabajo hasta ahora ha sido principalmente ayudar a deshacer el daño causado por antiguos empleados que pertenecían al componente "Zona de peligro" del diagrama de Venn.

Shadowtalker
fuente
2
+1. Creo que es muy valioso en este hilo escuchar a personas que realmente trabajan como "científicos de datos".
ameba
(+1) @amoeba Estoy 100% de acuerdo con tu sentimiento.
RustyStatistician
8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science
@caveman definitivamente estoy de acuerdo.
RustyStatistician
1
StatisticsData ScienceStatisticsData ScienceData Science
3

También me interesé recientemente en la ciencia de datos como una carrera, y cuando pienso en lo que aprendí sobre el trabajo de ciencia de datos en comparación con los numerosos cursos de estadística que tomé (¡y disfruté!), Comencé a pensar en los científicos de datos como científicos informáticos que centraron su atención en los datos. En particular, noté las siguientes diferencias principales. Tenga en cuenta sin embargo que las diferencias parecen estado de ánimo. Lo siguiente solo refleja mis impresiones subjetivas, y no pretendo generalidad. Solo mis impresiones!

  1. En estadística, le importan mucho las distribuciones, las probabilidades y los procedimientos inferenciales (cómo hacer pruebas de hipótesis, que son las distribuciones subyacentes, etc.). Por lo que entiendo, la ciencia de datos es más frecuente que predicción, y las preocupaciones sobre las declaraciones inferenciales son absorbidas en cierta medida por los procedimientos de la informática, como la validación cruzada.

  2. En los cursos de estadística, a menudo solo creé mis propios datos, o usé algunos datos listos para usar que están disponibles en un formato bastante limpio. Eso significa que está en un bonito formato rectangular, alguna hoja de cálculo de Excel o algo así que se adapta muy bien a la RAM. La limpieza de datos seguramente está involucrada, pero nunca tuve que lidiar con la "extracción" de datos de la web, y mucho menos de las bases de datos que tuvieron que configurarse para mantener una cantidad de datos que ya no cabe en la RAM. Mi impresión es que este aspecto computacional es mucho más dominante en la ciencia de datos.

  3. Tal vez esto refleja mi ignorancia sobre lo que hacen los estadísticos en los trabajos estadísticos típicos, pero antes de la ciencia de datos nunca pensé en construir modelos en un producto más grande. Había que hacer un análisis, resolver un problema estadístico, estimar algún parámetro y eso es todo. En ciencia de datos, parece que a menudo (aunque no siempre) los modelos predictivos están integrados en algo más grande. Por ejemplo, hace clic en algún lugar y, en milisegundos, un algoritmo predictivo habrá decidido lo que se muestra como resultado. Entonces, mientras que en estadística, siempre me pregunté "qué parámetro podemos estimar y cómo lo hacemos de manera elegante", parece que en ciencia de datos el foco está más en "qué podemos predecir que sea potencialmente útil en un producto de datos" .

Nuevamente, lo anterior no intenta dar una definición general. Solo estoy señalando las principales diferencias que me he percibido. Todavía no estoy en ciencia de datos, pero espero hacer la transición el próximo año. En este sentido, tome mis dos centavos aquí con un grano de sal.

coffeinjunky
fuente
2

Digo que un Data Scientist es un rol en el que uno crea resultados legibles para las empresas, utilizando los métodos para hacer que el resultado sea estadísticamente sólido (significativo).

Si no se sigue alguna parte de esta definición, hablamos sobre un desarrollador, un verdadero científico / estadístico o un ingeniero de datos.

Alexey Burnakov
fuente
2

Siempre me gusta cortar a la esencia del asunto.

statistics - science + some computer stuff + hype = data science
Mark L. Stone
fuente
1
Eso suena como la impresión que he formado de "aprendizaje automático", que encapsulo como "aprender a operar un software sin comprender cómo funciona realmente" (injusto, por supuesto, pero vemos mucho "aprendizaje automático" las personas que salen de la escuela que no entienden nada, pero lo que los parámetros de ajuste de los diferentes tipos de redes neuronales representan).
jbowman
1

La ciencia de datos es una combinación multidisciplinaria de inferencia de datos, desarrollo de algoritmos y tecnología para resolver problemas analíticamente complejos. Pero debido a la escasez de científicos de datos, una carrera en ciencia de datos realmente puede crear numerosas oportunidades. Sin embargo, las organizaciones buscan profesionales certificados de SAS, Data Science Council of America (DASCA), Hortonworks, etc. ¡Espero que sea una buena información!

usuario169155
fuente
1

Los científicos de datos tienen habilidades muy competentes en desarrollo de Python, MySQL y Java.

Tienen una comprensión muy clara de las funciones analíticas, muy bien en matemáticas, estadísticas, minería de datos, habilidades de análisis predictivo y también tienen un muy buen conocimiento de los lenguajes de codificación como Python y R.

Muchos científicos de datos ahora tienen su Ph.D. o su maestría en realidad, según la investigación, solo alrededor del 8% tiene simplemente una licenciatura, por lo que es mucho más profundo.

Construyendo modelos estadísticos que toman decisiones basadas en datos. Cada decisión puede ser difícil, por ejemplo, bloquear el procesamiento de una página, o suave, por ejemplo, asignar un puntaje por la malicia de una página, que es utilizada por sistemas anteriores o humanos.

Realización de experimentos de causalidad que intentan atribuir la causa raíz de un fenómeno observado. Esto se puede hacer diseñando experimentos A / B o si el experimento A / B no es posible aplicar un enfoque epidemiológico al problema, por ejemplo, el modelo causal @ Rubin

Identificar nuevos productos o características que provienen de desbloquear el valor de los datos; ser un líder de pensamiento sobre el valor de los datos. Un buen ejemplo de eso es la función de recomendaciones de productos que Amazon primero puso a disposición de una audiencia masiva.

Rameez
fuente
1
Bueno no. Estoy tan alto como puedes llegar a la cadena de trabajo de científico de datos, y no conozco Java en absoluto, ni soy muy competente en Python, y mis habilidades de MySQL son de la mejor calidad genérica. En mi grupo tenemos un par de otras personas que conocen el pequeño Python, prefieren R, y solo una persona conoce Java, pero él codifica principalmente en R y C / C ++ (como yo). Tres personas conocen Python pero realmente no conocen ninguno lenguaje de nivel inferior. No quiero entrar en Python v. R flame wars, o Java v. C / C ++, pero de ninguna manera es necesario que alguna de sus listas de habilidades relacionadas con la programación sea necesaria.
jbowman
0

Para responder a su pregunta "¿Qué es un científico de datos?" Puede valer la pena ser consciente de la diferencia entre un Científico de Datos y un Mecánico de Datos como se señala en http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/

Mukherjee profundo
fuente
1
Para que esta sea una respuesta completa, resalte los puntos principales del artículo en su respuesta, a fin de proporcionar al OP y a otros lectores puntos clave.
Greenparker