¿Es Excel suficiente para la ciencia de datos?

10

Estoy en el proceso de preparación para impartir un curso introductorio sobre ciencia de datos utilizando el lenguaje de programación R. Mi audiencia son estudiantes de pregrado con especialización en temas de negocios. Un estudiante universitario de negocios típico no tiene experiencia en programación de computadoras, pero ha tomado algunas clases que usan Excel.

Personalmente, me siento muy cómodo con R (u otros lenguajes de programación) porque me especialicé en informática. Sin embargo, tengo la sensación de que muchos de mis alumnos se sentirán recelosos de aprender un lenguaje de programación porque les puede parecer difícil.

Tengo cierta familiaridad con Excel, y creo que si bien Excel puede ser útil para la ciencia de datos simple, es necesario que los estudiantes aprendan un lenguaje de programación serio para la ciencia de datos (por ejemplo, R o Python). ¿Cómo puedo convencerme a mí mismo y a los estudiantes de que Excel es insuficiente para un estudiante serio de negocios que estudia ciencias de datos y que es necesario que aprendan algo de programación?

Editado en respuesta al comentario

Estos son algunos de los temas que trataré:

  • Procesamiento de datos y limpieza de datos.
  • Cómo manipular una tabla de datos, por ejemplo, seleccionar un subconjunto de filas (filtro), agregar nuevas variables (mutar), ordenar filas por columnas
  • SQL se une con el paquete dplyr
  • Cómo dibujar gráficos (gráficos de dispersión, gráficos de barras, histogramas, etc.) utilizando el paquete ggplot2
  • Cómo estimar e interpretar modelos estadísticos como regresión lineal, regresión logística, árboles de clasificación y k-vecinos más cercanos

Como no conozco Excel muy bien, no sé si todas estas tareas se pueden hacer fácilmente en Excel.

Me gusta codificar
fuente
Sin saber qué hay en su plan de estudios, esta pregunta no puede ser respondida. Dicho esto, debe echar un vistazo a Power Pivot / Data Model en Excel. En la actualidad, puede manejar fácilmente conjuntos de datos de varios gigabytes con millones de filas en Excel, y es rápido.
Cayo
@Gaius Agregué algunos detalles de lo que quiero enseñar en el curso
me gusta codificar el
Sus puntos 1-4 están bien respaldados por el modelo de datos support.office.com/en-us/article/… - para el punto 5 sugeriría el nivel gratuito de AzureML studio.azureml.net
Gaius
AzureML también funciona con R por cierto
Gaius
44
Acerca de su último punto: eche un vistazo al libro "Datos inteligentes" de John Foreman - amazon.com/Data-Smart-Science-Transform-Information/dp/…
Gregory Demin

Respuestas:

8

En primer lugar echa un vistazo a esta publicación . Tiene muchas razones por las cuales Excel es inferior a otras soluciones, con respecto a las tareas de ciencia de datos. Excel tampoco puede manejar grandes conjuntos de datos (cientos de miles de registros, sin mencionar nada cerca de Big Data ), datos de imagen y sonido.

Excel es bueno para tareas simples relacionadas con hojas de cálculo; enfatiza más en la presentación y la facilidad de uso , mientras que tiene un soporte mínimo para analizar realmente los datos. A menos que todo lo que quiera hacer sea calcular medidas estadísticas simples (media, promedio, etc.) o construir un modelo muy simple (por ejemplo, regresión lineal), Excel es ineficiente. Dicho esto, el 99% del trabajo que una empresa tiene que hacer frente a los datos relacionados es lo suficientemente simple como para ser manejable a través de Excel.

Sin embargo, Data Science se ocupa principalmente de regresión, clasificación y modelos complejos que Excel no está equipado para manejar. Si sus estudiantes quieren echar un vistazo a la ciencia de datos, debe enseñarles una herramienta que les sea útil (R, python, etc.). Estos lenguajes también tienen bibliotecas con toneladas de modelos integrados para "jugar con".

Otra razón realmente enorme por la que elegiría las últimas opciones es que son de código abierto . Personalmente, creo que el software de código abierto debería preferirse desde un punto de vista educativo a las soluciones patentadas (¡esta es también la razón por la que sugiero python y R sobre Matlab)!

Djib2011
fuente
Estoy de acuerdo con todo lo anterior, pero él dijo que son grandes empresas. ¿Por qué no enseñar R pero también asegurarse de demostrar un complemento R / Excel?
CalZ
1
"Excel tampoco puede manejar grandes conjuntos de datos (cientos de miles de registros" <- sí, puede hacerlo fácilmente. Y puede actuar como un cliente para backends serios como AzureML y PowerBI. No soy un fanático de Excel " "mucho, pero me sorprende ver a personas supuestamente" basadas en datos "que ni siquiera conocen las herramientas básicas."
Cayo
1
¿Qué sucede si se trata de un conjunto de datos de un millón de filas más miles de columnas, en la misma máquina "básica" (16 gb rams, i7 ecc), ¿qué solución lo abriría más rápido? No estoy tratando de denigrar a Excel, solo una curiosidad sincera. Demasiado que sé, ni siquiera puedo abrir ese conjunto de datos en Excel. RStudio lo lee sin problemas en la misma PC.
RLave
7

Acabo de terminar un Máster en Business Analytics y me enfrenté al mismo problema que estás describiendo. Afortunadamente, soy una persona técnica y pude enseñarme a mí mismo R y Python, pero me quedé atrapado enseñando al resto de la clase cómo usar R y Python. Las clases que tuve que usaban R / Python se vieron perjudicadas por la falta de comprensión técnica por parte de los estudiantes y se dedicó demasiado tiempo a cubrir cómo abrir R / Python. Las clases que tomaron la otra ruta fueron decepcionantes y poco prácticas. Quería hacer para un proyecto de clase algo que no pudo hacerse en Excel debido a sus limitaciones, pero el maestro no aceptó ninguna otra herramienta.

Puede que no sea algo que pueda hacer de inmediato, pero le recomiendo encarecidamente que intente que el departamento requiera un curso de programación antes de tomar su curso. La ciencia de datos y el análisis de negocios en mi humilde opinión deberían ser caminos multidisciplinarios que requieren un poco de informática, pero hasta que los programas maduren y el sistema universitario mejore, puede que no suceda por un tiempo.

Matt Camp
fuente
Usted mencionó que "quería hacer para un proyecto de clase algo que terminó por no poder hacerse en Excel debido a sus limitaciones". ¿Qué intentabas hacer que no se podía hacer en Excel?
Me gusta codificar el
3

Creo que debe enseñarles un lenguaje de ciencia de datos popular como Python o R. Excel no los ayudará en un trabajo real, y no es práctico para fines de ciencia de datos. Probablemente diría que Python sería lo más valioso para ellos a largo plazo, y con paquetes como scikit-learn, sus regresiones y clasificaciones se pueden demostrar en muy pocas líneas de código que pueden leer y comprender más fácilmente. No siempre es fácil entender lo que está haciendo R con solo leerlo.

Otro consejo: no pierdas el tiempo obligando a tus estudiantes a configurar un IDE y descargar los paquetes necesarios, si usas Python crea un entorno virtual para ellos con todos los paquetes necesarios y configura un IDE como pycharm (pueden obtenga este y la mayoría de los otros IDE bajo una licencia de estudiante / académica) donde luego puede desarrollar y ejecutar su código a través de la interfaz de usuario en lugar de la consola, lo que puede resultar desalentador y confuso. Si sigue la ruta R, asegúrese de tener un IDE como RStudio configurado para ellos y asegúrese de que todas las instalaciones incluidas e incluidas en el paquete estén incluidas en su código de ejemplo o estén completamente descritas.

Dan Carter
fuente
"Excel no los va a ayudar en un trabajo real" ciertamente lo es si eso es lo que todos sus colegas están usando. ¿Qué trabajos reales en su experiencia no usan Excel?
Cayo
3
Cualquier rol de Data Science que trabaje con grandes cantidades de datos, incluido el mío. ¿Qué trabajos de DS cree que usarían Excel como su herramienta principal, por interés?
Dan Carter
¿Veo por tu perfil que eres un estudiante? Oh. Estos son estudiantes de negocios que toman un curso en DS. En sus trabajos comerciales, utilizarán Excel como su herramienta principal.
Gay
1
Claro, tiene razón, es probable que usen Excel en un rol de tipo empresarial, sin embargo, como lo expresó OP: ya han tomado cursos que cubren Excel. Combine esto con el hecho de que Excel no es adecuado para la industria o la ciencia de datos académica y está claro que enseñarles 'Excel for Data Science' no los ayudará en un trabajo real, como dije. No se puede enseñar a un hombre (o mujer) a pescar, enseñándole a hablar francés.
Dan Carter
¿Y qué si ya han tomado cursos en Excel? No lo trates como un imbécil incapaz de aprender R. ¡No estamos hablando de Haskell o LISP aquí!
Emre
2

¿Cómo puedo convencerme a mí mismo y a los estudiantes de que Excel es insuficiente para un estudiante serio de negocios que estudia ciencias de datos?

Cree en R un marco de datos enorme (un par de millones de filas y cientos de columnas), guárdelo como .xlsx.

Muéstreles la diferencia horaria al cargarlo con R y en Excel en la misma máquina. Compare las operaciones estadísticas básicas entre los dos en el mismo conjunto de datos, incluso trazados.

Punto no. 2-4 en su lista también se puede hacer en Excel, solo MUCHO más dolorosamente, muéstreles un par de ejemplos de cuánto se está filtrando de manera simple (y más rápida) dplyr, en comparación con Excel básico, nuevamente en un gran conjunto de datos que esto destacaría la diferencia.

Un punto adicional si puede crear un conjunto de datos que bloquee su PC con Excel.

Además, enfatizaría la parte "gratuita" de R (o Python). Por ejemplo, en comparación con SAS, si simplemente desea probar una solución (es decir, algún tipo de clúster), carga la biblioteca y la prueba, sin necesidad de pagar más, solo por intentarlo.

Para mí esa es la belleza, puedes probar gratis lo que necesites y, a menudo, eso es clave en DS, imagina que tendrías que pagar por cada biblioteca que instales.

RLave
fuente
1

Excel y ciencia de datos: me suena muy extraño. Tal vez Excel y 'Análisis de datos'.

De todos modos, creo que un buen compromiso entre Excel y R es: KNIME ( http://www.knime.org/knime-analytics-platform ). Es gratis en el escritorio y es mucho más fácil comenzar. Puede importar / exportar a Excel pero también usar R, Python o Java si los ~ 1,000 nodos pierden alguna funcionalidad que necesita. Dado que los flujos de trabajo se crean visualmente, también es mucho más fácil mostrárselos a alguien que no conoce ningún lenguaje de programación, lo cual es una gran ventaja en algunas empresas.

Tobi
fuente
0

Creo que el problema es que estás tratando de convencer a tus alumnos de que al tomar tu clase, pueden hacer ciencia de datos similar al nivel de la ciencia de datos moderna, es decir, cosas sofisticadas como el procesamiento de imágenes, el reconocimiento facial. Escuchas esto decir la mayoría de las veces, "al tomar esta clase, vas a ..." Lo que necesitas enseñarles es el amor por los datos y el coraje de mirar a través de un montón de datos, jugando con ellos para esperar algún sentido fuera de ellos. En el momento en que pueden hacer eso, puede llamarlos científicos de datos y debería sentirse orgulloso de sí mismo por ahora tener una nueva generación de científicos de datos. Después de eso, si se toman muy en serio la ciencia de datos, pueden continuar tomando otros cursos intensos que se ocupan de matemáticas, estadísticas y ciencias de la computación (experiencia de programación como usted dijo). Estaba en una situación similar a la de tus alumnos. No tenía experiencia en CS, pero quería entrar en ciencia de datos e inteligencia artificial tomando algunas clases en línea con promesas elegantes. Terminé desperdiciando toneladas de dinero pero me encontré con una gran frustración (oh, necesito tomar esta clase para conocer este algoritmo, oh, ahora están hablando de redes neuronales, así que tengo que inscribirme en la otra clase, etc.) TL ;DR. Las herramientas solo representan el 1% del problema que tiene. Con sus antecedentes, no debería tener problemas para resolver las tareas anteriores en Excel en una semana. oh, ahora están hablando de redes neuronales, así que tengo que inscribirme en la otra clase, etc.) TL; DR. Las herramientas solo representan el 1% del problema que tiene. Con sus antecedentes, no debería tener problemas para resolver las tareas anteriores en Excel en una semana. oh, ahora están hablando de redes neuronales, así que tengo que inscribirme en la otra clase, etc.) TL; DR. Las herramientas solo representan el 1% del problema que tiene. Con sus antecedentes, no debería tener problemas para resolver las tareas anteriores en Excel en una semana.

Huy Truong
fuente