Me gustaría aprender sobre la teoría de la probabilidad, la teoría de la medición y, finalmente, el aprendizaje automático. Mi objetivo final es utilizar el aprendizaje automático en una pieza de software.
Estudié cálculo y probabilidad muy básica en la universidad, pero eso es todo. ¿Conoces algunos cursos o libros en línea que podría utilizar para aprender sobre estos temas? He encontrado muchos recursos en la web, pero todos parecen dirigidos a un público experto. Sé que tomará algún tiempo, pero ¿por dónde empiezo si me gustaría aprender desde el principio?
Respuestas:
Creo que existen dos referencias muy buenas y populares para usted (comencé con estas además de tener una formación de maestría en ciencias actuariales):
Una introducción al aprendizaje estadístico (con aplicación en R) por Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. Está disponible gratuitamente en el sitio, es bastante completo y fácil de entender con ejemplos prácticos. Puede comenzar a aprender muchas cosas incluso sin un fondo estadístico muy sólido, esta referencia es buena para varios perfiles e incluye un número adecuado de algoritmos populares junto con su implementación en R sin profundizar en los detalles matemáticos.
Los elementos del aprendizaje estadístico por Trevor Hastie, Robert Tibshirani, Jerome Friedman . En comparación con el primero, este libro profundiza en los aspectos matemáticos si desea explorar más a fondo los algoritmos particulares que le resultan útiles. (es gratis también)
Y, por supuesto, Cross Validated es una de las mejores fuentes donde puedes aprender muchas cosas, para mí: las mejores prácticas, el malentendido estadístico y el mal uso, y muchos más. Después de varios años de aprendizaje en escuelas / universidades, así como el aprendizaje de seft, descubrí que mi conocimiento es demasiado limitado cuando fui por primera vez a Cross Validated. Sigo yendo aquí todos los días desde la primera visita y aprendo mucho.
fuente
Aquí hay un par de cursos en línea gratuitos que he escuchado que son muy recomendables:
fuente
No necesitas la teoría de la medida. Los matemáticos utilizan la teoría de la medida para justificar otros procedimientos matemáticos, por ejemplo, tomar límites de aproximaciones integrales. La mayoría de los ingenieros no habrían estudiado la teoría de la medida, solo usarían los resultados. El conocimiento matemático requerido para el aprendizaje automático se caracteriza más o menos por la capacidad de integrar un gaussiano multivariado. Si está seguro de eso, entonces probablemente tenga el cálculo multivariable, el álgebra lineal y la teoría de probabilidad necesaria.
Recomendaría Think Stats de Allen Downey, que tiene como objetivo enseñar probabilidad / estadística a los programadores. La idea es aprovechar la experiencia en programación para hacer simulaciones y, por lo tanto, comprender la teoría de probabilidad / métodos estadísticos. blog de allen downey (ha escrito otros) Piense estadísticas (gratis) pdf )
fuente
Como estás interesado en el aprendizaje automático, omitiría la probabilidad y la postura, y me lanzaría directamente al ML. El curso de Andrew Ng es un excelente lugar para comenzar. Literalmente puedes terminarlo en dos semanas.
Juega con lo que has aprendido durante algunas semanas, luego vuelve a las raíces y estudia algunas probabilidades. Si eres ingeniero, entonces estoy desconcertado de cómo lograste saltarte en la universidad. Solía ser el curso requerido en ingeniería. De todos modos, puedes ponerte al día tomando el curso MIT OCW aquí .
No creo que necesites la teoría de la medida. Nadie necesita la teoría de la medida. Quienes lo hagan, no vendrán a preguntar, porque su asesor les dirá qué curso tomar. Si no tiene un asesor, definitivamente no lo necesita. Tautología, pero cierto.
Lo que ocurre con una teoría de la medida es que no se puede aprender con "lectura fácil". Tienes que hacer los ejercicios y problemas, básicamente, hacerlo de manera difícil. Eso es prácticamente imposible fuera de la sala de clase, en mi opinión. La mejor opción aquí es tomar una clase en la universidad local, si ofrecen tal. A veces, el curso de probabilidades de nivel de doctorado hará la medida y las probabilidades en una clase, que es probablemente la mejor opción. No recomendaría tomar una clase de teoría de medidas puras en el departamento de matemáticas, a menos que realmente quieras torturarte, aunque al final estarías muy satisfecho.
fuente
Para el aprendizaje automático, creo que el aprendizaje automático: el arte y la ciencia de los algoritmos que tienen sentido de los datos de Peter Flach puede ser un buen recurso para comenzar. Ofrece una introducción general al aprendizaje automático con ejemplos intuitivos y es adecuado para principiantes. Me gusta este libro particularmente por el último capítulo, que trata sobre experimentos de aprendizaje automático. Mientras aprende sobre el aprendizaje automático, conocer diferentes modelos no es suficiente, y uno debería poder comparar diferentes algoritmos de aprendizaje automático. Creo que este libro ha facilitado la comprensión de cómo comparar esos algoritmos. Las diapositivas de la conferencia se pueden encontrar aquí .
fuente
Para agregar a las excelentes sugerencias anteriores, diría que si está interesado en obtener una comprensión firme de los conceptos más básicos en probabilidad y estadística, "De algoritmos a puntajes Z: computación probabilística en estadística" es una excelente introducción al uso de computadoras para Comprender algunos de los conceptos principiantes / intermedios más importantes en teoría de probabilidad y procesos estocásticos. También mencionaré "Introducción al aprendizaje estadístico" o "Elementos del aprendizaje estadístico" (ESL) como introducción al aprendizaje automático (ML). Creo que el ESL en particular es increíble, pero le da una mirada mucho más matemática a los conceptos de ML, por lo que si solo se considera "bien" en las estadísticas, es posible que desee leerlo una vez que haya obtenido más experiencia con ML.
Si está interesado en Machine Learning por el hecho de estar empleado o resolver problemas, obtener experiencia práctica es clave. Tome una introducción a los cursos de ciencia de datos / aprendizaje automático. Andrew Ng hace una sorprendente introducción al aprendizaje automático en su curso en Coursera aquí . También te sugiero que descargues algunos conjuntos de datos y comiences a jugar con ellos. Si aún no lo ha hecho, descargue R y RStudio (en mi opinión, más amigable para los principiantes que Python o Matlab), y regístrese en kaggle y resuelva algunos de sus problemas para principiantes. Tienen excelentes tutoriales que pueden ayudarlo a usar ML sin tener idea de lo que realmente está sucediendo, pero le da una idea sobre el tipo de pasos que necesitaría tomar para implementar realmente una solución de ML.
Personalmente, recomendaría una combinación de comenzar a usar herramientas de ML sin saber realmente lo que hacen (usando conjuntos de datos de Kaggle o similares); y aprender conceptos fundamentales como la validación cruzada, el sobreajuste, el uso de matrices de confusión, diferentes medidas de cuán bueno es un modelo, etc. Para mí, es mucho más importante saber cómo usar los algoritmos y saber identificar cuándo funcionan las cosas. / no funcionan, es entender cómo funcionan los algoritmos.
fuente