Estoy en el proceso de preparación para impartir un curso introductorio sobre ciencia de datos utilizando el lenguaje de programación R. Mi audiencia son estudiantes de pregrado con especialización en temas de negocios. Un estudiante universitario de negocios típico no tiene experiencia en programación de computadoras, pero ha tomado algunas clases que usan Excel.
Personalmente, me siento muy cómodo con R (u otros lenguajes de programación) porque me especialicé en informática. Sin embargo, tengo la sensación de que muchos de mis alumnos se sentirán recelosos de aprender un lenguaje de programación porque les puede parecer difícil.
Tengo cierta familiaridad con Excel, y creo que si bien Excel puede ser útil para la ciencia de datos simple, es necesario que los estudiantes aprendan un lenguaje de programación serio para la ciencia de datos (por ejemplo, R o Python). ¿Cómo puedo convencerme a mí mismo y a los estudiantes de que Excel es insuficiente para un estudiante serio de negocios que estudia ciencias de datos y que es necesario que aprendan algo de programación?
Editado en respuesta al comentario
Estos son algunos de los temas que trataré:
- Procesamiento de datos y limpieza de datos.
- Cómo manipular una tabla de datos, por ejemplo, seleccionar un subconjunto de filas (filtro), agregar nuevas variables (mutar), ordenar filas por columnas
- SQL se une con el paquete dplyr
- Cómo dibujar gráficos (gráficos de dispersión, gráficos de barras, histogramas, etc.) utilizando el paquete ggplot2
- Cómo estimar e interpretar modelos estadísticos como regresión lineal, regresión logística, árboles de clasificación y k-vecinos más cercanos
Como no conozco Excel muy bien, no sé si todas estas tareas se pueden hacer fácilmente en Excel.
fuente
Respuestas:
En primer lugar echa un vistazo a esta publicación . Tiene muchas razones por las cuales Excel es inferior a otras soluciones, con respecto a las tareas de ciencia de datos. Excel tampoco puede manejar grandes conjuntos de datos (cientos de miles de registros, sin mencionar nada cerca de Big Data ), datos de imagen y sonido.
Excel es bueno para tareas simples relacionadas con hojas de cálculo; enfatiza más en la presentación y la facilidad de uso , mientras que tiene un soporte mínimo para analizar realmente los datos. A menos que todo lo que quiera hacer sea calcular medidas estadísticas simples (media, promedio, etc.) o construir un modelo muy simple (por ejemplo, regresión lineal), Excel es ineficiente. Dicho esto, el 99% del trabajo que una empresa tiene que hacer frente a los datos relacionados es lo suficientemente simple como para ser manejable a través de Excel.
Sin embargo, Data Science se ocupa principalmente de regresión, clasificación y modelos complejos que Excel no está equipado para manejar. Si sus estudiantes quieren echar un vistazo a la ciencia de datos, debe enseñarles una herramienta que les sea útil (R, python, etc.). Estos lenguajes también tienen bibliotecas con toneladas de modelos integrados para "jugar con".
Otra razón realmente enorme por la que elegiría las últimas opciones es que son de código abierto . Personalmente, creo que el software de código abierto debería preferirse desde un punto de vista educativo a las soluciones patentadas (¡esta es también la razón por la que sugiero python y R sobre Matlab)!
fuente
Acabo de terminar un Máster en Business Analytics y me enfrenté al mismo problema que estás describiendo. Afortunadamente, soy una persona técnica y pude enseñarme a mí mismo R y Python, pero me quedé atrapado enseñando al resto de la clase cómo usar R y Python. Las clases que tuve que usaban R / Python se vieron perjudicadas por la falta de comprensión técnica por parte de los estudiantes y se dedicó demasiado tiempo a cubrir cómo abrir R / Python. Las clases que tomaron la otra ruta fueron decepcionantes y poco prácticas. Quería hacer para un proyecto de clase algo que no pudo hacerse en Excel debido a sus limitaciones, pero el maestro no aceptó ninguna otra herramienta.
Puede que no sea algo que pueda hacer de inmediato, pero le recomiendo encarecidamente que intente que el departamento requiera un curso de programación antes de tomar su curso. La ciencia de datos y el análisis de negocios en mi humilde opinión deberían ser caminos multidisciplinarios que requieren un poco de informática, pero hasta que los programas maduren y el sistema universitario mejore, puede que no suceda por un tiempo.
fuente
Creo que debe enseñarles un lenguaje de ciencia de datos popular como Python o R. Excel no los ayudará en un trabajo real, y no es práctico para fines de ciencia de datos. Probablemente diría que Python sería lo más valioso para ellos a largo plazo, y con paquetes como scikit-learn, sus regresiones y clasificaciones se pueden demostrar en muy pocas líneas de código que pueden leer y comprender más fácilmente. No siempre es fácil entender lo que está haciendo R con solo leerlo.
Otro consejo: no pierdas el tiempo obligando a tus estudiantes a configurar un IDE y descargar los paquetes necesarios, si usas Python crea un entorno virtual para ellos con todos los paquetes necesarios y configura un IDE como pycharm (pueden obtenga este y la mayoría de los otros IDE bajo una licencia de estudiante / académica) donde luego puede desarrollar y ejecutar su código a través de la interfaz de usuario en lugar de la consola, lo que puede resultar desalentador y confuso. Si sigue la ruta R, asegúrese de tener un IDE como RStudio configurado para ellos y asegúrese de que todas las instalaciones incluidas e incluidas en el paquete estén incluidas en su código de ejemplo o estén completamente descritas.
fuente
Cree en R un marco de datos enorme (un par de millones de filas y cientos de columnas), guárdelo como .xlsx.
Muéstreles la diferencia horaria al cargarlo con R y en Excel en la misma máquina. Compare las operaciones estadísticas básicas entre los dos en el mismo conjunto de datos, incluso trazados.
Punto no. 2-4 en su lista también se puede hacer en Excel, solo MUCHO más dolorosamente, muéstreles un par de ejemplos de cuánto se está filtrando de manera simple (y más rápida)
dplyr
, en comparación con Excel básico, nuevamente en un gran conjunto de datos que esto destacaría la diferencia.Un punto adicional si puede crear un conjunto de datos que bloquee su PC con Excel.
Además, enfatizaría la parte "gratuita" de R (o Python). Por ejemplo, en comparación con SAS, si simplemente desea probar una solución (es decir, algún tipo de clúster), carga la biblioteca y la prueba, sin necesidad de pagar más, solo por intentarlo.
Para mí esa es la belleza, puedes probar gratis lo que necesites y, a menudo, eso es clave en DS, imagina que tendrías que pagar por cada biblioteca que instales.
fuente
Excel y ciencia de datos: me suena muy extraño. Tal vez Excel y 'Análisis de datos'.
De todos modos, creo que un buen compromiso entre Excel y R es: KNIME ( http://www.knime.org/knime-analytics-platform ). Es gratis en el escritorio y es mucho más fácil comenzar. Puede importar / exportar a Excel pero también usar R, Python o Java si los ~ 1,000 nodos pierden alguna funcionalidad que necesita. Dado que los flujos de trabajo se crean visualmente, también es mucho más fácil mostrárselos a alguien que no conoce ningún lenguaje de programación, lo cual es una gran ventaja en algunas empresas.
fuente
Creo que el problema es que estás tratando de convencer a tus alumnos de que al tomar tu clase, pueden hacer ciencia de datos similar al nivel de la ciencia de datos moderna, es decir, cosas sofisticadas como el procesamiento de imágenes, el reconocimiento facial. Escuchas esto decir la mayoría de las veces, "al tomar esta clase, vas a ..." Lo que necesitas enseñarles es el amor por los datos y el coraje de mirar a través de un montón de datos, jugando con ellos para esperar algún sentido fuera de ellos. En el momento en que pueden hacer eso, puede llamarlos científicos de datos y debería sentirse orgulloso de sí mismo por ahora tener una nueva generación de científicos de datos. Después de eso, si se toman muy en serio la ciencia de datos, pueden continuar tomando otros cursos intensos que se ocupan de matemáticas, estadísticas y ciencias de la computación (experiencia de programación como usted dijo). Estaba en una situación similar a la de tus alumnos. No tenía experiencia en CS, pero quería entrar en ciencia de datos e inteligencia artificial tomando algunas clases en línea con promesas elegantes. Terminé desperdiciando toneladas de dinero pero me encontré con una gran frustración (oh, necesito tomar esta clase para conocer este algoritmo, oh, ahora están hablando de redes neuronales, así que tengo que inscribirme en la otra clase, etc.) TL ;DR. Las herramientas solo representan el 1% del problema que tiene. Con sus antecedentes, no debería tener problemas para resolver las tareas anteriores en Excel en una semana. oh, ahora están hablando de redes neuronales, así que tengo que inscribirme en la otra clase, etc.) TL; DR. Las herramientas solo representan el 1% del problema que tiene. Con sus antecedentes, no debería tener problemas para resolver las tareas anteriores en Excel en una semana. oh, ahora están hablando de redes neuronales, así que tengo que inscribirme en la otra clase, etc.) TL; DR. Las herramientas solo representan el 1% del problema que tiene. Con sus antecedentes, no debería tener problemas para resolver las tareas anteriores en Excel en una semana.
fuente