Actualmente estoy trabajando como científico de datos en una empresa minorista (mi primer trabajo como DS, por lo que esta pregunta puede ser el resultado de mi falta de experiencia). Tienen una enorme acumulación de proyectos de ciencia de datos realmente importantes que tendrían un gran impacto positivo si se implementan. Pero.
Las canalizaciones de datos no existen dentro de la empresa, el procedimiento estándar es que me entreguen gigabytes de archivos TXT siempre que necesite información. Piense en estos archivos como registros tabulares de transacciones almacenadas en notación y estructura arcanas. No se contiene toda la información en una sola fuente de datos, y no pueden otorgarme acceso a su base de datos ERP por "razones de seguridad".
El análisis inicial de datos para el proyecto más simple requiere una lucha de datos brutal e insoportable. Más del 80% del tiempo dedicado a un proyecto es a mí tratando de analizar estos archivos y cruzar fuentes de datos para construir conjuntos de datos viables. Este no es un problema de simplemente manejar datos faltantes o preprocesarlos, se trata del trabajo que se necesita para construir datos que se puedan manejar en primer lugar (¿ solucionable por dba o ingeniería de datos, no ciencia de datos? ).
1) Siente que la mayor parte del trabajo no está relacionado con la ciencia de datos en absoluto. ¿Es esto exacto?
2) Sé que esta no es una compañía basada en datos con un departamento de ingeniería de datos de alto nivel, pero es mi opinión que para construir un futuro sostenible de proyectos de ciencia de datos, se requieren niveles mínimos de accesibilidad de datos . ¿Me equivoco?
3) ¿Es este tipo de configuración común para una empresa con necesidades serias de ciencia de datos?
fuente
Respuestas:
Parece que la mayor parte del trabajo no está relacionado con la ciencia de datos en absoluto. ¿Es esto exacto?
si
Sé que esta no es una compañía basada en datos con un departamento de ingeniería de datos de alto nivel, pero es mi opinión que la ciencia de datos requiere niveles mínimos de accesibilidad de datos. ¿Me equivoco?
No te equivocas, pero esas son las realidades de la vida real.
¿Es este tipo de configuración común para una empresa con graves necesidades de ciencia de datos?
si
Desde un punto de vista técnico, debe buscar soluciones ETL que puedan facilitarle la vida. A veces, una herramienta puede ser mucho más rápida que otra para leer ciertos datos. Por ejemplo, el readxl de R es un orden de mangnitudes más rápido que los pandas de Python al leer archivos xlsx; puede usar R para importar los archivos y luego guardarlos en un formato compatible con Python (parquet, SQL, etc.). Sé que no estás trabajando en archivos xlsx y no tengo idea si usas Python, fue solo un ejemplo.
Desde un punto de vista práctico, dos cosas:
En primer lugar, entienda lo que es técnicamente posible. En muchos casos, las personas que le dicen saber son personas analfabetas de TI que se preocupan por las consideraciones comerciales o de cumplimiento, pero no tienen un concepto de lo que es y no es factible desde el punto de vista de TI. Intente hablar con los DBA o con quien gestione la infraestructura de datos. Comprende lo que es técnicamente posible. ENTONCES, solo entonces, trate de encontrar un compromiso. Por ejemplo, no le darán acceso a su sistema, pero supongo que hay una base de datos detrás. ¿Quizás puedan extraer los datos a otros formatos? ¿Quizás puedan extraer las declaraciones SQL que definen los tipos de datos, etc.?
Es más probable que la gente de negocios lo ayude si usted puede argumentar que hacerlo le interesa. Si ni siquiera creen en lo que estás haciendo, mala suerte ...
fuente
Esta es una situación que muchos blogs, compañías y periódicos reconocen como algo real en muchos casos.
En este documento Data Wrangling for Big Data: desafíos y oportunidades , hay una cita al respecto
Además, puede leer la fuente de esa cita en este artículo de The New York Times, Para los científicos de Big Data, 'El trabajo de conserje' es el obstáculo clave para las ideas
Desafortunadamente, el mundo real no es como Kaggle. No obtiene un archivo CSV o Excel que simplemente puede iniciar la Exploración de datos con un poco de limpieza. Necesita encontrar los datos en un formato que no sea adecuado para sus necesidades.
Lo que puede hacer es utilizar los datos antiguos tanto como pueda e intentar adaptar el almacenamiento de datos nuevos en un proceso que le resulte más fácil (o un futuro colega) para trabajar.
fuente
Esta es la realidad de cualquier proyecto de ciencia de datos. Google realmente lo midió y publicó un documento "Deuda técnica oculta en sistemas de aprendizaje automático" https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf
El resultado del trabajo refleja mi experiencia también. La mayor parte del tiempo se dedica a la adquisición, limpieza y procesamiento de datos.
fuente
Parece que la mayor parte del trabajo no está relacionado con la ciencia de datos en absoluto. ¿Es esto exacto?
La disputa de datos se encuentra definitivamente en la descripción del trabajo de Data Scientist. En algún nivel, debe comprender el proceso de generación de datos para utilizarlo para impulsar soluciones. Claro, alguien especializado en ETL podría hacerlo más rápido / más eficiente, pero recibir volcados de datos no es raro en el mundo real. Si no le gusta este aspecto de la ciencia de datos, puede haber una oportunidad de trabajar más estrechamente con los recursos de TI para obtener los datos adecuadamente en un almacén al que tenga acceso. Alternativamente, puede encontrar un trabajo que ya tenga datos en mejor orden.
Sé que esta no es una compañía basada en datos con un departamento de ingeniería de datos de alto nivel, pero es mi opinión que la ciencia de datos requiere niveles mínimos de accesibilidad de datos. ¿Me equivoco?
Creo que el nivel mínimo son los archivos txt. Si tiene acceso a los datos a través de archivos de texto, debe tener acceso a los datos en la base de datos (presione sobre esto con los superiores).
¿Es este tipo de configuración común para una empresa con graves necesidades de ciencia de datos?
Si. Usted es el CIENTÍFICO de datos; usted es el experto Es parte de su trabajo educar a otros sobre las ineficiencias de la estructura de datos actual y cómo puede ayudar. Los datos que no son utilizables no ayudan a nadie. Tiene la oportunidad de mejorar las cosas y dar forma al futuro de la empresa.
fuente
Como otro iniciador reciente en Data Science, solo puedo agregar que no creo que su experiencia sea única, mi equipo de aproximadamente 10 aparentemente no ha hecho ningún DS en más de un año (un pequeño proyecto que ocupó 2 de los equipo). Esto se debe a la promesa de una tubería efectiva en la que el equipo ha estado trabajando, pero aún no está entregando los datos. Aparentemente, la retención ha sido bastante pobre en el pasado y existe una promesa continua de un entorno sagrado de MS Azure para futuros proyectos de DS.
Entonces para responder:
1) Sí totalmente exacto
2) No, tienes razón, pero es una batalla cuesta arriba obtener acceso a la información que deseas (si es que existe).
3) Estoy seguro de que hay compañías que son mejores que otras. Si no puede soportarlo en su empresa actual, 2 años es un período de tiempo decente, comience a buscar cosas más brillantes (tenga cuidado de cómo expresa su deseo de dejar su trabajo actual, algo así como "buscar trabajar con un trabajo más dinámico equipo "sonaría mejor que" mi empresa anterior no me dará datos ").
fuente
Si miras esto desde la perspectiva de "este no es mi trabajo, entonces, ¿por qué debería hacerlo?", Entonces ese es un problema general bastante común, no específico de la ciencia de datos. En última instancia, su trabajo es hacer lo que el jefe le diga que haga, pero en la práctica hay pocas razones para que el jefe sea dictatorial al respecto y, por lo general, puede ser persuadido. O al menos le darán una explicación sincera de por qué tiene que ser así. Pero en lo que respecta a apelar a la autoridad, no existe una definición oficial de "Ciencia de datos" que diga que solo se puede hacer como máximo X% de limpieza de datos. La autoridad es quien le paga, siempre que tengan el derecho legal de dejar de pagarle.
También podría verlo desde otra perspectiva: ¿Es este un buen uso de su tiempo? Parece que tomó un trabajo para hacer algunas tareas (lo que quiere decir con "ciencia de datos") pero tiene que hacer otra cosa (lo que llama "disputas de datos"). Las descripciones de trabajo y los sentimientos personales son un poco irrelevantes aquí porque hay algo más pertinente: la compañía presumiblemente le paga una buena cantidad de dinero para hacer algo que solo usted puede hacer (la ciencia de datos). Pero es hacer que hagas otras cosas, que podrían hacer otras personas que son una combinación de más capaces, más motivados o menos costosos. Si alguien podría ganar la mitad de su salario, entonces no tiene sentido pagarle el doble por hacer lo mismo. Si pudiera hacerse más rápidopor alguien pagado el mismo salario, se aplica la misma lógica. Por lo tanto, es un desperdicio de recursos (especialmente dinero) que la empresa le asigne esta tarea. Desde esta perspectiva, es posible que sea mucho más fácil hacer que sus superiores vean su lado de las cosas.
Por supuesto, al final del día, alguien tiene que lidiar con los datos. Puede ser que la forma más barata, rápida y fácil de hacerlo: la mejor persona para el trabajo, eres tú. En ese caso, no tienes suerte. Podría intentar afirmar que no es parte de su contrato, pero ¿cuáles son las probabilidades de que fueran lo suficientemente ingenuos como para incluir algo tan específico en el contrato?
fuente
Quizás para decirlo simplemente:
Debe trabajar con sus datos y comprenderlos, lo que incluye cosas simples, desde corregir inconsistencias (NULL, cadenas vacías, "-") hasta comprender cómo una parte de los datos pasa de recopilarse a mostrarse. Procesarlo incluye conocer la misma información, por lo que es un trabajo parcial que de todos modos habría tenido que hacer.
Ahora, parece que esta compañía podría beneficiarse al configurar algún tipo de instancia gratuita de MySQL (o similar) para almacenar sus datos. Intentar ser flexible cuando está diseñando su código de discusión también es una buena idea: tener un conjunto de datos intermedios de datos procesados creo que sería útil si se le permite (y no puede hacerlo en MySQL).
Pero, por supuesto, todavía está configurando las cosas desde cero. Este no es un proceso fácil, pero esta "experiencia de aprendizaje" es al menos buena para incluir en su CV.
fuente
1) Siente que la mayor parte del trabajo no está relacionado con la ciencia de datos en absoluto. ¿Es esto exacto? En mi opinión, Data Science no puede retirarse de la disputa de datos. Pero, como dijiste, la pregunta vendría sobre cuánto porcentaje de Data Wrangling debe hacer un Data Scientist. Depende del ancho de banda de la organización y del interés de la persona en realizar dicho trabajo. En mi experiencia de 15 a 16 años como DS, siempre pasé alrededor del 60% al 70% en actividades de disputa de datos y pasé un máximo de 15% de tiempo en análisis real. así que atiende tu llamada.
2) Sé que esta no es una empresa basada en datos con un departamento de ingeniería de datos de alto nivel, pero es mi opinión que la ciencia de datos requiere niveles mínimos de accesibilidad de datos. ¿Me equivoco? Nuevamente, depende de las políticas de seguridad de la organización. No pueden dejarlo todo a usted y tienen sus propios problemas de seguridad para revelar los datos a una persona que es un empleado temporal (lamento usar estas palabras :-()
3) ¿Es este tipo de configuración común para una empresa con necesidades serias de ciencia de datos? Siento que este tipo de empresas requieren la mayor atención de los científicos de datos para sentir que el modelado basado en datos es el futuro para sostener su negocio. :-)
He dado mis aportes al pensar en negocios en lugar de puntos de vista técnicos. :-) Espero ser claro en mi elección de palabras.
fuente
En su charla "Big Data son cuatro problemas diferentes", el ganador del premio Turing Michael Stonebraker menciona este problema en particular como un gran problema ( video , diapositivas )
Él dice que hay una serie de problemas abiertos en esta área: Ingesta, Transformación (por ejemplo, euro / dólar), Limpio (por ejemplo, 99 / Nulo), Mapeo de esquemas (por ejemplo, salarios / sueldos), Consolidación de entidades (por ejemplo, Mike Stonebraker / Michael Interruptor de piedra)
Hay varias compañías / productos que intentan resolver este problema, como Tamr, Alteryx, Trifacta, Paxata, Google Refine que trabajan para resolver este problema.
Hasta que esta área madure, gran parte del trabajo del científico de datos será de hecho discutiendo los datos.
fuente