Durante el primer semestre de 2015 hice el curso de Machine Learning (por Andrew Ng, GREAT course). Y aprendí los conceptos básicos del aprendizaje automático (regresión lineal, regresión logística, SVM, redes neuronales ...)
También he sido desarrollador durante 10 años, por lo que aprender un nuevo lenguaje de programación no sería un problema.
Últimamente, he comenzado a aprender R para implementar algoritmos de aprendizaje automático.
Sin embargo, me di cuenta de que si quiero seguir aprendiendo necesitaré un conocimiento más formal de la estadística, actualmente tengo un conocimiento no formal de la misma, pero tan limitado que, por ejemplo, no podría determinar adecuadamente cuál de varios modelos lineales sería mejor (normalmente tiendo a usar R-cuadrado para ello, pero aparentemente esa no es una muy buena idea).
Entonces, para mí parece bastante obvio que necesito aprender los conceptos básicos de estadística (estudié eso en la universidad pero olvidé la mayor parte), ¿dónde debo aprender? Tenga en cuenta que realmente no necesito un curso completo, solo algo eso dentro de un mes me permite saber lo suficiente para poder estar ansioso y aprender más :).
Hasta ahora he leído sobre " Estadísticas sin lágrimas ", ¿alguna otra sugerencia?
fuente
references
etiqueta. Es posible que desee explorar la primera página de visitas sobre ese tema.Respuestas:
Te sugiero una hoja de ruta básica sobre cómo hacerlo:
Prima:
Un sitio maravilloso para tales mapas de ruta es Metacademy , que personalmente consideraría uno de los mejores recursos de Data Science en la web.
Gitxiv es otro hermoso sitio, que conecta los trabajos de investigación de Arxiv sobre Data Science con las implementaciones / bibliotecas de código abierto relevantes.
fuente
¿Ha revisado Think Stats o Think Bayes? Ambos son libros de estadísticas (gratuitos) dirigidos a programadores y con un montón de código Python.
Además, si usted está interesado en aprender R entonces CRAN tiene una gran cantidad de archivos PDF (gratis) que es posible que desee comprobar hacia fuera, como Introducción a la Probabilidad y Estadística Uso de R . También hay un curso de Coursera que usa R, que muchas personas realmente adoran (usan este libro de texto , que quizás también quieras consultar, y creo que tienen laboratorios en DataCamp ).
Además, si desea repasar algunos temas de Estadísticas, siempre puede ver un par de videos en Khan Academy .
fuente
Si alguna vez, incluso en un pasado lejano, pudo resolver problemas en esta lista , entonces debería intentar estudiar las estadísticas aplicadas "correctamente". Te daré un algoritmo simple de dos pasos.
Primero, ponte al día con la teoría de la probabilidad. Hay muchos libros geniales. Mi favorito es el libro clásico de Feller. Se llama "Introducción", pero no te dejes engañar por el título, es tan profundo como deseas ir, pero muy bien escrito y simple si solo quieres rozar la superficie.
El segundo paso son las estadísticas. De nuevo, hay un montón de libros geniales. Le daré uno que usé, un texto de introducción decente de Gujarati "Basic Econometrics", Cuarta Edición. Econometría es estadística aplicada a la economía. Como referencia, un tipo que todos creen que dijo que el científico de datos será el trabajo más sexy en los próximos 10 años es Hal Varian, un economista de Berkeley. Una gran cantidad de material de aprendizaje automático se basa en estadísticas básicas, regresiones, etc. Todo lo que se trata en este libro, y no necesita leerlo todo, está escrito de manera que pueda elegir capítulos en su propio orden.
Te sorprenderá ver cuántos espacios quedan abiertos después de que la clase de Ng se llene rápidamente mientras lee estos textos.
Como practicante, no necesitas demasiada teoría después de estos dos pasos. Puede seguir aprendiendo técnicas de aprendizaje automático específicamente leyendo los libros en este campo. Es importante no profundizar demasiado en el comienzo en probabilidad y estadísticas. Obtenga su código para ML primero y complete los vacíos a medida que avanza.
fuente
Todos recomiendan Casella & Berger, que se usa casi universalmente en los programas de estadísticas de posgrado. No es un mal libro de referencia, pero no estoy seguro de que haría más que escanear los primeros 4-5 capítulos. No creo que necesite la teoría de cómo construir una prueba de tipo Neyman-Pearson antes de profundizar en "estadísticas", es decir, análisis de datos.
En cambio, me enfocaría en los métodos de aprendizaje. Mi programa de posgrado utilizó métodos estadísticos lineales aplicados para las pruebas frecuentas, y es una referencia exhaustiva bastante decente, pero podría no ser el libro más accesible desde un punto de vista autodidacta. Un curso o dos de MIT o coursera podría ser una mejor manera de comenzar con eso, porque obtendrá una visión más amplia con más ejemplos de los que podría leer un libro.
Para Bayes, el libro que he visto usar con mayor frecuencia es Doing Bayesian Data Analysis , que viene con fotos de cachorros (claramente, esto hace que el libro sea superior a otros libros de texto introductorios bayesianos). Nunca he usado el libro yo mismo, pero lo hojeé y parece bastante decente, mucho mejor que el libro de Gelman, que encontré algo incomprensible DESPUÉS de dos clases de estadísticas bayesianas, las explicaciones son terribles.
fuente
Esto no pretende ser una respuesta completa, es solo una sugerencia. Si desea obtener más información sobre estadísticas (la base), puede leer:
Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury
Este es un libro bastante estándar para los estadísticos y tiene muchos resultados interesantes. No necesita pasar por todas las pruebas de los teoremas, pero es posible que desee hacer algunos ejercicios para sentirse más seguro con los resultados.
Si desea obtener más información sobre la econometría (modelos de datos), puede echar un vistazo a:
Hayashi, F. (2000): Econometrics, Princeton University Press
Otra persona realmente preguntó algo similar a lo que usted pidió y obtuvo una buena respuesta: Qué hacer después de "Casella & Berger" .
Además, si realmente tiene la intención de leer estos libros, este programa de estudios de un curso de econometría puede darle una buena dirección y ritmo sobre qué leer (CB y Hayashi) y cuándo leer.
fuente
Sugeriría un nuevo libro que salió desde la pregunta original: Replanteamiento estadístico: un curso bayesiano con ejemplos en R y Stan por Richard McElreath, CRC Press.
Está muy bien escrito y utiliza un enfoque bayesiano. Es muy interactivo, y querrá resolver los problemas o puede llegar a la mitad y comenzar a perderse.
Comienza muy básico y termina con modelos de varios niveles, y está dirigido a científicos bastante avanzados que tienen algún conocimiento estadístico pero que no se sienten cómodos en general con las estadísticas como se les enseñó. Así que no puedo decir exactamente que es un libro para principiantes, pero comienza de manera muy simple y tiene un arco y un estilo maravillosos.
La parte "Stan" del título es una herramienta de muestreo bayesiano de uso general. Esencialmente, es un lenguaje de programación que se compila automáticamente en C ++ y luego se compila en un ejecutable. (La inferencia bayesiana es general, a diferencia de las alternativas, por lo que puede tener una herramienta generalizada).
fuente
Pensé que lanzaría esta respuesta para la posteridad, incluso si es probable que sea demasiado tarde para ser útil para usted. All of Statistics de Larry Wasserman se concibió como un curso para personas con experiencia en aprendizaje automático, otras disciplinas de comp. Al tener una falta similar de estadísticas formales, algunos amigos y yo formamos un grupo de autoaprendizaje para estudiarlo en la escuela de posgrado. Creo que realmente me beneficié de esa experiencia.
Los temas adicionales que Wasserman incluye más allá del material típico del curso de "probabilidad e inferencia estadística", como modelos gráficos y bootstrapping, son particularmente relevantes para alguien que trabaja en el aprendizaje automático. Debo decir que el libro puede ser bastante conciso en comparación con algo como Casella & Berger, por lo que si desea más detalles o motivación para ciertas partes (especialmente pruebas) puede que tenga que complementarlo con otro material de lectura. Dicho esto, también encontré que el libro está escrito claramente con una buena cantidad de problemas de práctica, y es una excelente referencia rápida.
Un mes no es mucho tiempo. Sin embargo, si establece un ritmo muy agresivo, creo que ciertamente puede sacar mucho provecho de este texto en un semestre: por ejemplo, hicimos nuestro grupo de autoaprendizaje durante el verano. Eso es especialmente cierto si está interesado principalmente en el modelado lineal, que alcanzará con Ch. 13-14.
fuente