Me consideraría un científico de datos oficial. Como la mayoría (creo), hice mis primeros cuadros e hice mis primeras agregaciones en la escuela secundaria y la universidad, usando Excel. A medida que cursé la universidad, la escuela de posgrado y ~ 7 años de experiencia laboral, rápidamente aprendí lo que considero herramientas más avanzadas, como SQL, R, Python, Hadoop, LaTeX, etc.
Estamos entrevistando para un puesto de científico de datos y un candidato se anuncia a sí mismo como un "científico de datos sénior" (un término muy actual en estos días) con más de 15 años de experiencia. Cuando se le preguntó cuál era su conjunto de herramientas preferido, respondió que era Excel.
Tomé esto como evidencia de que no tenía tanta experiencia como su currículum afirmaría, pero no estaba seguro. Después de todo, solo porque no es mi herramienta preferida, no significa que no sea de otras personas. ¿Los científicos de datos experimentados usan Excel? ¿Se puede asumir la falta de experiencia de alguien que utiliza principalmente Excel?
\LaTeX{}
, no los contrataría. solo es broma ...Respuestas:
La mayoría de las personas no técnicas a menudo usan Excel como reemplazo de la base de datos. Creo que eso está mal pero es tolerable. Sin embargo, alguien que supuestamente tiene experiencia en análisis de datos simplemente no puede usar Excel como su herramienta principal (excluyendo la tarea obvia de mirar los datos por primera vez). Esto se debe a que Excel nunca fue pensado para ese tipo de análisis y, como consecuencia de esto, es increíblemente fácil cometer errores en Excel (eso no quiere decir que no sea increíblemente fácil cometer otro tipo de errores al usar otras herramientas, pero Excel agrava la situación aún más).
Para resumir lo que Excel no tiene y es imprescindible para cualquier análisis:
Más recursos:
Grupo de interés sobre riesgos de la hoja de cálculo europea - Historias de terror
No deberías usar una hoja de cálculo para un trabajo importante (lo digo en serio)
Excel de Microsoft podría ser el software más peligroso del planeta
¡Destruya sus datos usando Excel con este truco extraño!
Las hojas de cálculo de Excel son difíciles de acertar
fuente
df.plot()
) y exportar su salida a csv (df.to_csv('output.csv')
). Tenga en cuenta que los análisis de datos generalmente requieren mucho más que filtrar y trazar. Por lo tanto, el enfoque debe estar en la corrección, por lo que debe desacoplar la presentación del análisis. Realice su análisis en Python (u otro lenguaje), comparta su salida en csv si eso es lo que desea.He visto algunos científicos de datos experimentados, que usan Excel, ya sea por su preferencia o por los detalles del entorno de negocios y TI de su lugar de trabajo (por ejemplo, muchas instituciones financieras usan Excel como su herramienta principal, al menos, para modelar). Sin embargo, creo que los científicos de datos más experimentados reconocen la necesidad de usar herramientas, que son óptimas para tareas particulares, y se adhieren a este enfoque.
No, no puedes. Este es el corolario de mis pensamientos mencionados anteriormente. La ciencia de datos no implica automáticamente grandes datos: hay mucho trabajo de ciencia de datos que Excel puede manejar bastante bien. Dicho esto, si un científico de datos (incluso uno experimentado) no tiene conocimiento (al menos, básico) de las herramientas modernas de ciencia de datos, incluidas las grandes centradas en datos, es algo inquietante. Esto se debe a que la experimentación está profundamente arraigada en la naturaleza de la ciencia de datos debido a que el análisis exploratorio de datos es una parte esencial e, incluso, crucial. Por lo tanto, una persona que no tiene ganas de explorar otras herramientas dentro de su dominio, podría clasificarse más bajo entre los candidatos en el ajuste general para un puesto de ciencia de datos (por supuesto, esto es bastante confuso, ya que algunas personas aprenden muy rápido) nuevo material, además,
Por lo tanto, en conclusión, creo que la mejor respuesta que un científico de datos experimentado podría tener a una pregunta con respecto a su herramienta preferida es la siguiente: Mi herramienta preferida es la óptima, es la que mejor se adapta a la tarea en cuestión.
fuente
Creo que la mayoría de la gente responde sin tener un buen conocimiento de Excel. Excel (desde 2010) tiene una base de datos columnar en la memoria [tabla múltiple], llamada power pivot (que permite la entrada de csv / bases de datos, etc.), lo que le permite almacenar millones de filas (no tiene que cargarse en una hoja de cálculo) . También tiene una herramienta ETL llamada consulta de potencia que le permite leer los datos de una variedad de fuentes (incluido hadoop). Y tiene una herramienta de visualización (vista de poder y mapa de poder). Una gran cantidad de Data Science está haciendo un análisis de agregación y top-n en el que destaca el pivote de potencia. Agregue a esto la naturaleza interactiva de estas herramientas: cualquier usuario puede arrastrar y soltar fácilmente una dimensión para dividir los resultados y espero que pueda ver los beneficios. Entonces sí, no puedes hacer aprendizaje automático,
fuente
En su libro Data Smart, John Foreman resuelve problemas comunes de ciencia de datos (agrupación, ingenuos bayes, métodos de conjunto, ...) usando Excel. De hecho, siempre es bueno tener algún conocimiento de Python o R, pero supongo que Excel aún puede hacer la mayor parte del trabajo.
fuente
Me sorprende cuánta gente está apegada a la frescura de la profesión en lugar del trabajo real a realizar. Excel es una herramienta excelente, con Powerpivot gratuito, Powerquery, puede hacer mucho. (estos no están disponibles en OS X). Y si conoce VBA, puede hacer algunas cosas buenas. Y luego, si agrega la parte superior de ese conocimiento de Python, puede combinar los primeros pasos de extracción y manipulación de datos con Python y luego usar Excel, especialmente si es una persona visual. Con Excel, realmente puede inspeccionar los datos agregados antes de alimentar cualquier otro proceso o visualización. Es una herramienta imprescindible.
fuente
Excel solo permite datos muy pequeños y no tiene nada que sea lo suficientemente útil y flexible para el aprendizaje automático o incluso para trazar. Todo lo que haría en Excel es mirar un subconjunto de datos para echar un primer vistazo a los valores y asegurarme de que no pierda nada visible a simple vista.
Entonces, si su herramienta favorita es Excel, esto podría sugerir que rara vez se ocupa del aprendizaje automático, las estadísticas, los tamaños de datos más grandes o cualquier trazado avanzado. Alguien así no llamaría a un científico de datos. Por supuesto, los títulos no importan y depende mucho de sus requisitos.
En cualquier caso, no juzgue por declaraciones de experiencia o CV. He visto currículums y he conocido a las personas que están detrás.
No asumas Ponlo a prueba! Debes ser lo suficientemente bueno como para configurar una prueba. Se ha demostrado que las entrevistas solas son casi inútiles para determinar habilidades (solo muestran personalidad). Configure una prueba de aprendizaje supervisado muy simple y permítale usar cualquier herramienta que desee.
Y si primero desea evaluar a las personas en una entrevista, pregúntele sobre ideas muy básicas pero importantes sobre estadísticas o aprendizaje automático. Algo que todos sus empleados actuales saben.
fuente
Permítanme aclarar primero que estoy comenzando mi viaje hacia la ciencia de datos desde un punto de vista de programador y desarrollador de bases de datos. No soy un experto en ciencias de datos de 10 años ni un dios de la estadística. Sin embargo, sí trabajo como científico de datos y grandes conjuntos de datos para una empresa que trabaja con clientes bastante grandes en todo el mundo.
Desde mi experiencia, el científico de datos utiliza cualquier herramienta que necesite para hacer el trabajo.Excel, R, SAS, Python y más son todas herramientas en una caja de herramientas para un buen científico de datos. Los mejores pueden usar una amplia variedad de herramientas para analizar y procesar datos.
Por lo tanto, si te encuentras comparando R con Python, es probable que lo estés haciendo todo mal en el mundo de la ciencia de datos.Un buen científico de datos usa ambos cuando tiene sentido usar uno sobre el otro. Esto también se aplica a Excel.
Creo que es bastante difícil encontrar a alguien que tenga experiencia en tantas herramientas e idiomas diferentes, a la vez que ha sido excelente en todo. También creo que será difícil encontrar científicos de datos específicamente que no solo puedan programar algoritmos complejos sino que también sepan cómo usarlos desde un punto de vista estadístico.
La mayoría de los científicos de datos con los que he trabajado vienen en aproximadamente 2 sabores. Los que pueden programar y los que no pueden. Raramente trabajo con un científico de datos que pueda extraer datos en Python, manipularlos con algo como Pandas, ajustar un modelo a los datos en R y luego presentarlos a la gerencia al final de la semana.
Quiero decir, sé que existen. He leído muchos blogs de ciencia de datos de personas que desarrollan scrappers web, lo introducen en Hadoop, lo extraen en Python, programan cosas complejas y lo ejecutan a través de R para arrancar. Ellos existen. Están afuera Simplemente no me he encontrado con muchos que puedan hacer todo eso. ¿Quizás es solo mi área?
Entonces, ¿eso significa solo especializarse en una cosa mala? No. Muchos de mis amigos se especializan en un solo idioma principal y lo matan. Conozco muchos tipos de datos que solo conocen R y lo matan. También conozco a muchas personas que solo usan Excel para analizar datos porque eso es lo único que la mayoría de los científicos que no son de datos pueden abrir y usar (especialmente en empresas B2B). La pregunta que realmente necesita responder es si esta es la ÚNICA cosa que necesita para este puesto. Y lo más importante, ¿pueden aprender cosas nuevas?
PD
Data Science no se limita solo a "BIG DATA" o NoSQL.
fuente
Excel puede ser una excelente herramienta para el análisis exploratorio de datos, realmente depende de sus necesidades y, por supuesto, tiene sus limitaciones como cualquier herramienta, pero Excel definitivamente merece un lugar en el salón de la fama de la ciencia de datos.
Vale la pena recordar que, en la práctica, la mayoría de los usuarios explorarán un conjunto de datos muy reducido de todos modos (creado a partir de una consulta SQL).
Excel es poderoso para explorar datos cuando usa el objeto "tabla" en combinación con tablas dinámicas, la visualización es de 1 a 2 clics como máximo y muchos gráficos Excel en PowerPoint se ven geniales, a menos que esté buscando crear algo muy personalizado, por ejemplo, en un Contexto científico informático. La naturaleza interactiva significa que puede explorar rápidamente.
Los beneficios del objeto "tabla" es que a medida que transforma los datos aún más en Excel para permitirle explorar nuevas distribuciones, todas las tablas dinámicas recuerdan la variable.
Donde Excel es débil es que la lista de fórmulas es posiblemente limitante, por ejemplo, una declaración de caso SQL o una declaración de Python es mucho más flexible que una cadena interminable de funciones if.
Realmente depende de sus necesidades, pero Excel definitivamente merece un lugar en el salón de la fama de la ciencia de datos.
Una anécdota interesante: se puede ver que el equipo que trabaja en el algoritmo de suministro de noticias de Facebook juega regularmente con Excel y muchas hojas de cálculo.
fuente
Enseño un curso de Business Analytics que incluye SQL y Excel. Enseño en una escuela de negocios, por lo que mis alumnos no son los más técnicamente capaces, por eso no utilicé algo como R, Pandas o Weka. Dicho esto, Excel es una herramienta lo suficientemente potente como para usar para algunos análisis de datos. Obtiene la mayor parte de este poder de su capacidad para actuar como un front-end para SQL Server Analysis Services (un componente en SQL Server para el análisis de datos) utilizando el complemento de minería de datos.
SSAS le permite construir árboles de decisión, realizar regresiones lineales y logísticas e incluso crear redes bayesianas o neuronales. Descubrí que usar Excel como front-end es un enfoque menos amenazante para hacer este tipo de análisis, ya que todos han usado Excel antes. La forma de usar SSAS sin Excel es a través de una versión especializada de Visual Studio y esa no es la herramienta más fácil de usar que existe. Cuando lo combina con algunas otras herramientas de Excel como Power Query y Power Pivot, puede hacer un análisis de datos bastante sofisticado.
Divulgación completa, probablemente no la volveré a usar cuando enseñe la nueva versión del curso el próximo año (la dividiremos en dos cursos para que uno pueda centrarse más en el análisis de datos). Pero eso es solo porque la universidad pudo obtener suficientes licencias para Alteryx, que es aún más fácil de usar y más potente, pero cuesta $ 4-85k / usuario / año si no puede obtenerlo de alguna manera. Di lo que quieras sobre Excel, pero supera ese punto de precio.
fuente
Excel puede ser una excelente herramienta. Claro, dependiendo de lo que haga, puede que no se ajuste a la factura, pero si lo hace, sería casi una tontería descartarlo. Si bien toma un tiempo configurar su canalización, en Excel puede comenzar a ejecutar: interfaz de usuario incorporada, fácil extensión a través de VBA incluso con Python (por ejemplo, https://www.xlwings.org ). Puede que no sea ideal cuando se trata de cosas como el control de versiones, pero hay formas de hacerlo funcionar con Git (por ejemplo, https://www.xltrail.com/blog/auto-export-vba-commit-hook ).
fuente
¿Este individuo trabaja con 'Big Data' y usa principalmente Excel? ¡¿¡¿Seriamente?!?! Excel solo maneja hasta 1, 048, 576 filas de datos en una sola hoja de cálculo. Para conjuntos de datos más allá de eso, necesita un complemento. También las tablas dinámicas en Excel tienen restricciones severas en el análisis que se puede realizar al usarlas.
¿Qué tipos de tareas de análisis de datos deberían realizarse en el trabajo para el que está reclutando?
Le sugiero que realice entrevistas que incluyan pruebas del tipo de tareas que deberán realizarse en el trabajo considerado. Sin violar la confidencialidad, la privacidad o la protección de datos, la tarea de programación o análisis de datos establecida como parte de la entrevista debe incluir un subconjunto (seudónimo) de un conjunto de datos relevante para la publicación que se está entrevistando. De lo contrario, podría terminar reclutando a alguien que se articule en una entrevista basada en una conversación pero que en realidad no sea competente para llevar a cabo el trabajo real.
fuente