¿Cuánto de la disputa de datos es el trabajo de un científico de datos?

44

Actualmente estoy trabajando como científico de datos en una empresa minorista (mi primer trabajo como DS, por lo que esta pregunta puede ser el resultado de mi falta de experiencia). Tienen una enorme acumulación de proyectos de ciencia de datos realmente importantes que tendrían un gran impacto positivo si se implementan. Pero.

Las canalizaciones de datos no existen dentro de la empresa, el procedimiento estándar es que me entreguen gigabytes de archivos TXT siempre que necesite información. Piense en estos archivos como registros tabulares de transacciones almacenadas en notación y estructura arcanas. No se contiene toda la información en una sola fuente de datos, y no pueden otorgarme acceso a su base de datos ERP por "razones de seguridad".

El análisis inicial de datos para el proyecto más simple requiere una lucha de datos brutal e insoportable. Más del 80% del tiempo dedicado a un proyecto es a mí tratando de analizar estos archivos y cruzar fuentes de datos para construir conjuntos de datos viables. Este no es un problema de simplemente manejar datos faltantes o preprocesarlos, se trata del trabajo que se necesita para construir datos que se puedan manejar en primer lugar (¿ solucionable por dba o ingeniería de datos, no ciencia de datos? ).


1) Siente que la mayor parte del trabajo no está relacionado con la ciencia de datos en absoluto. ¿Es esto exacto?

2) Sé que esta no es una compañía basada en datos con un departamento de ingeniería de datos de alto nivel, pero es mi opinión que para construir un futuro sostenible de proyectos de ciencia de datos, se requieren niveles mínimos de accesibilidad de datos . ¿Me equivoco?

3) ¿Es este tipo de configuración común para una empresa con necesidades serias de ciencia de datos?

Victor Valente
fuente
¿Especificó en qué formato desea la información? ¿Y darles instrucciones sobre cómo pueden hacer esto con su ERP?
Jonnor
@ Jonnor Por supuesto. Llevo casi dos años trabajando aquí, y desde el día 1 expliqué cómo podríamos construir una mejor plataforma para la accesibilidad de datos. Sin embargo, existe una fuerte resistencia a cambiar lo que la compañía ha estado haciendo durante 30 años.
Victor Valente
13
Comience a rastrear sus horas y conviértalo en un costo en cuánto están perdiendo su tiempo convirtiendo el TXT nuevamente a un formato utilizable. Te apuesto que una vez que tengan una cifra de $, pueden hacerlo.
Nelson
Si es una carga para su tiempo, puede subcontratarlo.
Sarcoma
Me resulta confuso que una empresa contrate a un Científico de Datos y aún sea resistente al cambio. Debería mostrarles la cantidad de tiempo perdido y el peligro de guardar datos en archivos TXT largos sin seguridad real alrededor
Pedro Henrique Monforte

Respuestas:

27
  1. Parece que la mayor parte del trabajo no está relacionado con la ciencia de datos en absoluto. ¿Es esto exacto?

    si

  2. Sé que esta no es una compañía basada en datos con un departamento de ingeniería de datos de alto nivel, pero es mi opinión que la ciencia de datos requiere niveles mínimos de accesibilidad de datos. ¿Me equivoco?

    No te equivocas, pero esas son las realidades de la vida real.

  3. ¿Es este tipo de configuración común para una empresa con graves necesidades de ciencia de datos?

    si

Desde un punto de vista técnico, debe buscar soluciones ETL que puedan facilitarle la vida. A veces, una herramienta puede ser mucho más rápida que otra para leer ciertos datos. Por ejemplo, el readxl de R es un orden de mangnitudes más rápido que los pandas de Python al leer archivos xlsx; puede usar R para importar los archivos y luego guardarlos en un formato compatible con Python (parquet, SQL, etc.). Sé que no estás trabajando en archivos xlsx y no tengo idea si usas Python, fue solo un ejemplo.

Desde un punto de vista práctico, dos cosas:

  • En primer lugar, entienda lo que es técnicamente posible. En muchos casos, las personas que le dicen saber son personas analfabetas de TI que se preocupan por las consideraciones comerciales o de cumplimiento, pero no tienen un concepto de lo que es y no es factible desde el punto de vista de TI. Intente hablar con los DBA o con quien gestione la infraestructura de datos. Comprende lo que es técnicamente posible. ENTONCES, solo entonces, trate de encontrar un compromiso. Por ejemplo, no le darán acceso a su sistema, pero supongo que hay una base de datos detrás. ¿Quizás puedan extraer los datos a otros formatos? ¿Quizás puedan extraer las declaraciones SQL que definen los tipos de datos, etc.?

  • Es más probable que la gente de negocios lo ayude si usted puede argumentar que hacerlo le interesa. Si ni siquiera creen en lo que estás haciendo, mala suerte ...

PythonGuest
fuente
2
Excelente punto sobre encontrar / construir una solución ETL. Solo necesita agregar: elija una configuración con la que se sienta cómodo y que pueda leer / depurar fácilmente. En las primeras etapas de la automatización de tareas, esto es aún más importante que encontrar la herramienta de extracción de datos más rápida. Si se trata de mensajes de texto, es probable que a menudo se ejecute de la noche a la mañana, y su fluidez con una herramienta / marco / lenguaje puede marcar la diferencia entre despertarse con buenos datos o algo que debe comenzar de nuevo. Un solo cambio puede eliminar cualquier beneficio de eficiencia. Es mejor ser constante con menos errores que ir rápido y tropezar.
Jason
2
Cierto. Pero, además, no optimices demasiado. Elige tus prioridades sabiamente. Si la importación de datos es única, no pase días buscando cómo reducir el tiempo de importación de 2 horas a 30 minutos. Etc.
PythonGuest
39

Esta es una situación que muchos blogs, compañías y periódicos reconocen como algo real en muchos casos.

En este documento Data Wrangling for Big Data: desafíos y oportunidades , hay una cita al respecto

los científicos de datos pasan del 50 al 80 por ciento de su tiempo

Recopilación y preparación de datos digitales rebeldes.

Además, puede leer la fuente de esa cita en este artículo de The New York Times, Para los científicos de Big Data, 'El trabajo de conserje' es el obstáculo clave para las ideas

Desafortunadamente, el mundo real no es como Kaggle. No obtiene un archivo CSV o Excel que simplemente puede iniciar la Exploración de datos con un poco de limpieza. Necesita encontrar los datos en un formato que no sea adecuado para sus necesidades.

Lo que puede hacer es utilizar los datos antiguos tanto como pueda e intentar adaptar el almacenamiento de datos nuevos en un proceso que le resulte más fácil (o un futuro colega) para trabajar.

Tasos
fuente
44
Forbes no debería mencionarse en ninguna parte junto con las palabras "ciencia de datos".
Gented
50-80% basado en (cita) "entrevistas y estimaciones de expertos"
oW_
3
@gented Comentario basado en opinión sobre una encuesta basada en opinión en un artículo basado en opinión colocado en una respuesta basada en opinión a una pregunta basada en opinión. ¿Quién hubiera pensado que encontrarías esto en "Data Science" SE?
Keeta
25

Parece que la mayor parte del trabajo no está relacionado con la ciencia de datos en absoluto. ¿Es esto exacto?

Esta es la realidad de cualquier proyecto de ciencia de datos. Google realmente lo midió y publicó un documento "Deuda técnica oculta en sistemas de aprendizaje automático" https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

ingrese la descripción de la imagen aquí

El resultado del trabajo refleja mi experiencia también. La mayor parte del tiempo se dedica a la adquisición, limpieza y procesamiento de datos.

Shamit Verma
fuente
7
  1. Parece que la mayor parte del trabajo no está relacionado con la ciencia de datos en absoluto. ¿Es esto exacto?

    La disputa de datos se encuentra definitivamente en la descripción del trabajo de Data Scientist. En algún nivel, debe comprender el proceso de generación de datos para utilizarlo para impulsar soluciones. Claro, alguien especializado en ETL podría hacerlo más rápido / más eficiente, pero recibir volcados de datos no es raro en el mundo real. Si no le gusta este aspecto de la ciencia de datos, puede haber una oportunidad de trabajar más estrechamente con los recursos de TI para obtener los datos adecuadamente en un almacén al que tenga acceso. Alternativamente, puede encontrar un trabajo que ya tenga datos en mejor orden.

  2. Sé que esta no es una compañía basada en datos con un departamento de ingeniería de datos de alto nivel, pero es mi opinión que la ciencia de datos requiere niveles mínimos de accesibilidad de datos. ¿Me equivoco?

    Creo que el nivel mínimo son los archivos txt. Si tiene acceso a los datos a través de archivos de texto, debe tener acceso a los datos en la base de datos (presione sobre esto con los superiores).

  3. ¿Es este tipo de configuración común para una empresa con graves necesidades de ciencia de datos?

    Si. Usted es el CIENTÍFICO de datos; usted es el experto Es parte de su trabajo educar a otros sobre las ineficiencias de la estructura de datos actual y cómo puede ayudar. Los datos que no son utilizables no ayudan a nadie. Tiene la oportunidad de mejorar las cosas y dar forma al futuro de la empresa.

Socavador
fuente
6

Como otro iniciador reciente en Data Science, solo puedo agregar que no creo que su experiencia sea única, mi equipo de aproximadamente 10 aparentemente no ha hecho ningún DS en más de un año (un pequeño proyecto que ocupó 2 de los equipo). Esto se debe a la promesa de una tubería efectiva en la que el equipo ha estado trabajando, pero aún no está entregando los datos. Aparentemente, la retención ha sido bastante pobre en el pasado y existe una promesa continua de un entorno sagrado de MS Azure para futuros proyectos de DS.

Entonces para responder:

1) Sí totalmente exacto

2) No, tienes razón, pero es una batalla cuesta arriba obtener acceso a la información que deseas (si es que existe).

3) Estoy seguro de que hay compañías que son mejores que otras. Si no puede soportarlo en su empresa actual, 2 años es un período de tiempo decente, comience a buscar cosas más brillantes (tenga cuidado de cómo expresa su deseo de dejar su trabajo actual, algo así como "buscar trabajar con un trabajo más dinámico equipo "sonaría mejor que" mi empresa anterior no me dará datos ").

Oliver Houston
fuente
5

Si miras esto desde la perspectiva de "este no es mi trabajo, entonces, ¿por qué debería hacerlo?", Entonces ese es un problema general bastante común, no específico de la ciencia de datos. En última instancia, su trabajo es hacer lo que el jefe le diga que haga, pero en la práctica hay pocas razones para que el jefe sea dictatorial al respecto y, por lo general, puede ser persuadido. O al menos le darán una explicación sincera de por qué tiene que ser así. Pero en lo que respecta a apelar a la autoridad, no existe una definición oficial de "Ciencia de datos" que diga que solo se puede hacer como máximo X% de limpieza de datos. La autoridad es quien le paga, siempre que tengan el derecho legal de dejar de pagarle.

También podría verlo desde otra perspectiva: ¿Es este un buen uso de su tiempo? Parece que tomó un trabajo para hacer algunas tareas (lo que quiere decir con "ciencia de datos") pero tiene que hacer otra cosa (lo que llama "disputas de datos"). Las descripciones de trabajo y los sentimientos personales son un poco irrelevantes aquí porque hay algo más pertinente: la compañía presumiblemente le paga una buena cantidad de dinero para hacer algo que solo usted puede hacer (la ciencia de datos). Pero es hacer que hagas otras cosas, que podrían hacer otras personas que son una combinación de más capaces, más motivados o menos costosos. Si alguien podría ganar la mitad de su salario, entonces no tiene sentido pagarle el doble por hacer lo mismo. Si pudiera hacerse más rápidopor alguien pagado el mismo salario, se aplica la misma lógica. Por lo tanto, es un desperdicio de recursos (especialmente dinero) que la empresa le asigne esta tarea. Desde esta perspectiva, es posible que sea mucho más fácil hacer que sus superiores vean su lado de las cosas.

Por supuesto, al final del día, alguien tiene que lidiar con los datos. Puede ser que la forma más barata, rápida y fácil de hacerlo: la mejor persona para el trabajo, eres tú. En ese caso, no tienes suerte. Podría intentar afirmar que no es parte de su contrato, pero ¿cuáles son las probabilidades de que fueran lo suficientemente ingenuos como para incluir algo tan específico en el contrato?

Whelibeiren
fuente
3

Quizás para decirlo simplemente:

  • Al crear variables y números de agrupamiento, ¿lo estaría haciendo a ciegas o después de analizar sus datos?
  • Cuando sus colegas revisen sus hallazgos, si tenían preguntas sobre fragmentos de datos particulares, ¿le avergonzaría no saberlos?

Debe trabajar con sus datos y comprenderlos, lo que incluye cosas simples, desde corregir inconsistencias (NULL, cadenas vacías, "-") hasta comprender cómo una parte de los datos pasa de recopilarse a mostrarse. Procesarlo incluye conocer la misma información, por lo que es un trabajo parcial que de todos modos habría tenido que hacer.

Ahora, parece que esta compañía podría beneficiarse al configurar algún tipo de instancia gratuita de MySQL (o similar) para almacenar sus datos. Intentar ser flexible cuando está diseñando su código de discusión también es una buena idea: tener un conjunto de datos intermedios de datos procesados ​​creo que sería útil si se le permite (y no puede hacerlo en MySQL).

Pero, por supuesto, todavía está configurando las cosas desde cero. Este no es un proceso fácil, pero esta "experiencia de aprendizaje" es al menos buena para incluir en su CV.

David M
fuente
3

1) Siente que la mayor parte del trabajo no está relacionado con la ciencia de datos en absoluto. ¿Es esto exacto? En mi opinión, Data Science no puede retirarse de la disputa de datos. Pero, como dijiste, la pregunta vendría sobre cuánto porcentaje de Data Wrangling debe hacer un Data Scientist. Depende del ancho de banda de la organización y del interés de la persona en realizar dicho trabajo. En mi experiencia de 15 a 16 años como DS, siempre pasé alrededor del 60% al 70% en actividades de disputa de datos y pasé un máximo de 15% de tiempo en análisis real. así que atiende tu llamada.

2) Sé que esta no es una empresa basada en datos con un departamento de ingeniería de datos de alto nivel, pero es mi opinión que la ciencia de datos requiere niveles mínimos de accesibilidad de datos. ¿Me equivoco? Nuevamente, depende de las políticas de seguridad de la organización. No pueden dejarlo todo a usted y tienen sus propios problemas de seguridad para revelar los datos a una persona que es un empleado temporal (lamento usar estas palabras :-()

3) ¿Es este tipo de configuración común para una empresa con necesidades serias de ciencia de datos? Siento que este tipo de empresas requieren la mayor atención de los científicos de datos para sentir que el modelado basado en datos es el futuro para sostener su negocio. :-)

He dado mis aportes al pensar en negocios en lugar de puntos de vista técnicos. :-) Espero ser claro en mi elección de palabras.

usuario70920
fuente
3

En su charla "Big Data son cuatro problemas diferentes", el ganador del premio Turing Michael Stonebraker menciona este problema en particular como un gran problema ( video , diapositivas )

Él dice que hay una serie de problemas abiertos en esta área: Ingesta, Transformación (por ejemplo, euro / dólar), Limpio (por ejemplo, 99 / Nulo), Mapeo de esquemas (por ejemplo, salarios / sueldos), Consolidación de entidades (por ejemplo, Mike Stonebraker / Michael Interruptor de piedra)

Hay varias compañías / productos que intentan resolver este problema, como Tamr, Alteryx, Trifacta, Paxata, Google Refine que trabajan para resolver este problema.

Hasta que esta área madure, gran parte del trabajo del científico de datos será de hecho discutiendo los datos.

hojusaram
fuente