En primer lugar, este término suena muy oscuro.
De todos modos ... Soy un programador de software. Uno de los idiomas que puedo codificar es Python. Hablando de datos, puedo usar SQL y puedo hacer Data Scraping. Lo que descubrí hasta ahora después de leer tantos artículos en los que Data Science es bueno es:
1- estadísticas
2- álgebra
3- Análisis de datos
4- Visualización.
5- Aprendizaje automático.
Lo que sé hasta ahora:
1- Programación Python 2- Desguace de datos en Python
¿Pueden los expertos guiarme o sugerir una hoja de ruta para repasar la teoría y la práctica? Me he dado alrededor de 8 meses de tiempo a mí mismo.
Respuestas:
Concéntrese menos en adquirir habilidades y más en adquirir experiencia. Intenta resolver algunos problemas y publica tu trabajo en github. Aprenderá más en el proceso y podrá demostrar conocimiento y experiencia a los empleadores, lo cual es mucho más valioso que tener una comprensión supuestamente profunda de un tema o teoría.
Data Science es un campo bastante cargado en estos días, por lo que no estoy seguro de qué tipo de trabajo desea realizar específicamente, pero suponiendo que el aprendizaje automático sea un componente de él, entonces kaggle.com es un buen lugar para comenzar. En términos de objetivos, si puede trabajar con los datos en pandas / numpy / scipy, cree modelos en sci-kit learn y haga algunos gráficos bonitos en seaborn, ggplot o incluso matplotlib, entonces no tendrá problemas para obtener un trabajo desde una perspectiva de habilidades, especialmente si tiene ejemplos de código y ejemplos para demostrar sus habilidades. Si te quedas atascado, stackexchange tendrá la respuesta o puedes publicar una pregunta y tendrás una respuesta en breve. Una vez que esté haciendo el trabajo para ganarse la vida, aprenderá aún más, probablemente de un miembro del equipo que lo asesore.
La mejor de las suertes.
fuente
Me gusta el curso de Berkeley sobre ciencia de datos, dará una buena base y gusto por la ciencia de datos, después de pasar a udacity y coursera y muchos más recursos. Entonces, si tiene habilidades de programación, necesitará matemáticas, estadísticas y mucha visualización. También será genial acostumbrarse a IPython porque es esencial ver cada paso (visualizar) cómo funciona en lugar de escribir un script completo y probar después (anaconda es fácil de instalar y trabajar). El curso se enumera a continuación: bcourses.berkeley.edu/courses/1267848/wiki también la estadística que encuentro es un buen curso gratuito de SAS: Estadísticas 1: Introducción a ANOVA, Regresión y Regresión logística support.sas.com/edu/schedules.html ? ctry = us & id = 1979
Comenzando con ML recomendará: www.kaggle.com/c/titanic/details/getting-started-with-python
en el lado izquierdo también es para Excel usando tablas dinámicas y R. DataCamp ha lanzado el tutorial sobre cómo usar R. Una vez que complete estos pasos, habrá más competencias en kaggle (recientemente lanzada una para la Clasificación de Crímenes de San Francisco) y finalmente increíbles tutoriales en video de www.dataschool.io
Espero eso ayude ...
fuente
No está de acuerdo con David, un verdadero científico de datos es un estadístico aplicado que codifica y sabe cómo usar algoritmos de aprendizaje automático por las razones correctas. La estadística es la base de toda la ciencia de datos. Es el "pastel" per se. Todo lo demás es solo hielo.
La pregunta es qué tipo de científico de datos quieres ser. ¿Quieres ser un maestro en el tema (conocimiento de cómo, por qué, cuándo y cuándo no aplicar un algoritmo o técnica) o un Kaggle Script Kiddie usando Scipy y pensando que él es un científico de datos?
1 - Estadísticas
2- todo lo demás
fuente
Si quieres ser un hombre práctico con verdadero conocimiento, comienza con las matemáticas (cálculo, probabilidad + estadística, álgebra lelinear). En cada paso, intente implementar todo con la programación, python es bueno para esto. Cuando consigas un buen terreno, juega con datos reales y resuelve problemas
Cursos Álgebra lineal - edx Laff o codificación de la matriz Stat - edx stat 2x Barkley Calculus - lee ... es simple
fuente
David tiene un buen punto, te sugiero que te concentres en lo que sea que impulse más tu interés. Es la única forma de tener éxito en todo tipo de esfuerzo. Si quieres construir algo genial, comienza con él. Si quieres leer un libro, eso también es bueno. El punto de partida no importa. Unos días antes tendrá una mejor comprensión de lo que quiere y debe hacer a continuación.
fuente
La ciencia de datos es tan amplia que hay muchos caminos diferentes para ingresar. Por lo general, se divide en 4 o 5 tipos diferentes, por ejemplo:
Puede ver en las otras publicaciones de este tema a personas que provienen de un fondo de Estadísticas aplicadas (aplicando el algoritmo correcto), Fondo de programación (participando en Kaggle) y otros que lo aplican a un fondo de negocios
Las compañías inteligentes podrían referirse a una persona sesgada de programación como un "Ingeniero de Datos". Las grandes compañías también usan cada tipo para su equipo de ciencia de datos, por lo que demostrar buenas habilidades en forma de T sería algo bueno.
fuente
Si usted es un programador, puede comenzar con un clasificador de árbol de decisión, centrarse en comprender las matemáticas detrás de la entropía y la ganancia de información. Es esencial comprender que ML se trata solo de la compresión de datos.
Estoy muy en desacuerdo con algunas de las otras respuestas sobre el valor de los cursos prácticos. Lo más valioso para ML es la matemática: teoría de números, álgebra lineal y teoría de probabilidad.
Si no te enfocas en las matemáticas, lo único que aprenderás es cómo usar alguna biblioteca para hacer magia, eso no es aprendizaje automático ni ciencia en absoluto.
fuente