Por dónde empezar con estadísticas para un desarrollador experimentado

47

Durante el primer semestre de 2015 hice el curso de Machine Learning (por Andrew Ng, GREAT course). Y aprendí los conceptos básicos del aprendizaje automático (regresión lineal, regresión logística, SVM, redes neuronales ...)

También he sido desarrollador durante 10 años, por lo que aprender un nuevo lenguaje de programación no sería un problema.

Últimamente, he comenzado a aprender R para implementar algoritmos de aprendizaje automático.

Sin embargo, me di cuenta de que si quiero seguir aprendiendo necesitaré un conocimiento más formal de la estadística, actualmente tengo un conocimiento no formal de la misma, pero tan limitado que, por ejemplo, no podría determinar adecuadamente cuál de varios modelos lineales sería mejor (normalmente tiendo a usar R-cuadrado para ello, pero aparentemente esa no es una muy buena idea).

Entonces, para mí parece bastante obvio que necesito aprender los conceptos básicos de estadística (estudié eso en la universidad pero olvidé la mayor parte), ¿dónde debo aprender? Tenga en cuenta que realmente no necesito un curso completo, solo algo eso dentro de un mes me permite saber lo suficiente para poder estar ansioso y aprender más :).

Hasta ahora he leído sobre " Estadísticas sin lágrimas ", ¿alguna otra sugerencia?

Juan Antonio Gómez Moriano
fuente
2
Para estadísticas: Casella, G. y RL Berger (2002): Inferencia estadística, Duxbury. Para Econometrics: Hayashi, F. (2000): Econometrics, Princeton University Press. Para otro punto de vista: stats.stackexchange.com/questions/91863/…
Guilherme Salomé
Agregué la referencesetiqueta. Es posible que desee explorar la primera página de visitas sobre ese tema.
Glen_b
3
No veo que esto deba estar cerrado. Sin embargo, veo un argumento para hacerlo CW.
gung - Restablece a Monica
2
Desde mi punto de vista, el conocimiento estará sesgado si comienzas a aprender estadísticas sin el conocimiento previo de teorías de probabilidad.
Metariat
2
Me gustaría agregar una palabra de advertencia. Estoy seguro de que ya entiendes esto hasta cierto punto, pero solo quiero decirlo. Soy un estudiante de doctorado / doctorado. Con mi título de médico, planeo practicar medicina interna. Para mi doctorado, estoy estudiando bioestadística. Quiero que sepas que no puedes obtener más dominio de las estadísticas en 1 mes que un dominio de la medicina en un mes. De ninguna manera estoy tratando de desanimarte de aprender estadísticas. Todo lo contrario, espero que lo entiendas magníficamente. Pero entienda que no es menos complicado que querer ser desarrollador, por ejemplo.
Vincent Laufer

Respuestas:

26

Te sugiero una hoja de ruta básica sobre cómo hacerlo:

Prima:

Un sitio maravilloso para tales mapas de ruta es Metacademy , que personalmente consideraría uno de los mejores recursos de Data Science en la web.

Gitxiv es otro hermoso sitio, que conecta los trabajos de investigación de Arxiv sobre Data Science con las implementaciones / bibliotecas de código abierto relevantes.

Dawny33
fuente
2
OP ya ha tomado el curso de Ng, eso es lo que lo llevó a hacer la pregunta en primer lugar.
Aksakal
44
@ Aksakal lo he notado. Pero lo incluyó como parte de la hoja de ruta. Realmente no haría una diferencia, así que pensé que incluirlo ayudaría a otros que están leyendo esta publicación.
Dawny33
12

¿Ha revisado Think Stats o Think Bayes? Ambos son libros de estadísticas (gratuitos) dirigidos a programadores y con un montón de código Python.

Además, si usted está interesado en aprender R entonces CRAN tiene una gran cantidad de archivos PDF (gratis) que es posible que desee comprobar hacia fuera, como Introducción a la Probabilidad y Estadística Uso de R . También hay un curso de Coursera que usa R, que muchas personas realmente adoran (usan este libro de texto , que quizás también quieras consultar, y creo que tienen laboratorios en DataCamp ).

Además, si desea repasar algunos temas de Estadísticas, siempre puede ver un par de videos en Khan Academy .

Steve S
fuente
Me gustan Think Stats y Think Bayes, pero evitan deliberadamente gran parte de la teoría estadística formal a favor de hacer las cosas a través del código. Excelente para obtener una comprensión intuitiva del tema, pero no tan bueno si su objetivo es comprender la teoría subyacente.
Marius el
@ Mario: Sé lo que quieres decir. Sin embargo, estaba pensando que porque él ya es un programador y también porque parecía querer "algo pequeño, simple y rápido", podría ser más de lo que está buscando.
Steve S
8

Si alguna vez, incluso en un pasado lejano, pudo resolver problemas en esta lista , entonces debería intentar estudiar las estadísticas aplicadas "correctamente". Te daré un algoritmo simple de dos pasos.

Primero, ponte al día con la teoría de la probabilidad. Hay muchos libros geniales. Mi favorito es el libro clásico de Feller. Se llama "Introducción", pero no te dejes engañar por el título, es tan profundo como deseas ir, pero muy bien escrito y simple si solo quieres rozar la superficie.

El segundo paso son las estadísticas. De nuevo, hay un montón de libros geniales. Le daré uno que usé, un texto de introducción decente de Gujarati "Basic Econometrics", Cuarta Edición. Econometría es estadística aplicada a la economía. Como referencia, un tipo que todos creen que dijo que el científico de datos será el trabajo más sexy en los próximos 10 años es Hal Varian, un economista de Berkeley. Una gran cantidad de material de aprendizaje automático se basa en estadísticas básicas, regresiones, etc. Todo lo que se trata en este libro, y no necesita leerlo todo, está escrito de manera que pueda elegir capítulos en su propio orden.

Te sorprenderá ver cuántos espacios quedan abiertos después de que la clase de Ng se llene rápidamente mientras lee estos textos.

Como practicante, no necesitas demasiada teoría después de estos dos pasos. Puede seguir aprendiendo técnicas de aprendizaje automático específicamente leyendo los libros en este campo. Es importante no profundizar demasiado en el comienzo en probabilidad y estadísticas. Obtenga su código para ML primero y complete los vacíos a medida que avanza.

Aksakal
fuente
4

Todos recomiendan Casella & Berger, que se usa casi universalmente en los programas de estadísticas de posgrado. No es un mal libro de referencia, pero no estoy seguro de que haría más que escanear los primeros 4-5 capítulos. No creo que necesite la teoría de cómo construir una prueba de tipo Neyman-Pearson antes de profundizar en "estadísticas", es decir, análisis de datos.

En cambio, me enfocaría en los métodos de aprendizaje. Mi programa de posgrado utilizó métodos estadísticos lineales aplicados para las pruebas frecuentas, y es una referencia exhaustiva bastante decente, pero podría no ser el libro más accesible desde un punto de vista autodidacta. Un curso o dos de MIT o coursera podría ser una mejor manera de comenzar con eso, porque obtendrá una visión más amplia con más ejemplos de los que podría leer un libro.

Para Bayes, el libro que he visto usar con mayor frecuencia es Doing Bayesian Data Analysis , que viene con fotos de cachorros (claramente, esto hace que el libro sea superior a otros libros de texto introductorios bayesianos). Nunca he usado el libro yo mismo, pero lo hojeé y parece bastante decente, mucho mejor que el libro de Gelman, que encontré algo incomprensible DESPUÉS de dos clases de estadísticas bayesianas, las explicaciones son terribles.

srvanderplas
fuente
1
Los primeros 5 capítulos de C&B no son estadísticas en absoluto, más bien como antecedentes ... ¡El concepto de estadística se aborda al comienzo del capítulo 6! Más concretamente, los métodos de aprendizaje probablemente no ayudarán a esta persona específica. Le ayudaría a aplicar estadísticas, no a entenderlas, que es lo que necesita. si tiene un entrenamiento matemático avanzado, probablemente pueda saltearlo hasta cierto punto, pero su respuesta sugiere que actualmente no puede entender los fundamentos de ML ... lo que sugiere que sus matemáticas son limitantes (al menos para mí). C&B podría no ser un mal lugar para comenzar.
Vincent Laufer
1
Puede que no sean estadísticas, pero el trasfondo de las distribuciones de probabilidad es esencial para realizar cualquier tipo de modelado: necesita saber qué es una distribución de Bernoulli y cuáles son sus propiedades antes de poder entender la regresión logística, por ejemplo. Todavía hago referencia a C&B ocasionalmente, pero no creo que haya usado algo más allá del capítulo 6 fuera de la clase que tomé que usó ese libro.
srvanderplas
1
Estoy bastante de acuerdo con lo que dijiste, pero se relaciona con la digresión en lugar del punto principal, que es mi culpa por agregar la digresión en primer lugar. en cualquier caso, el punto principal es que, como muchos otros han sugerido, lo que OP realmente necesita hacer es comprender mejor las matemáticas y estadísticas teóricas. en ninguna parte de la publicación indica que necesita ayuda para aplicar más pruebas estadísticas. Él puede hacer eso. él quiere entenderlos más profundamente. para esto, C&B es mejor que aprender más preparación práctica orientada a la aplicación.
Vincent Laufer
3

Esto no pretende ser una respuesta completa, es solo una sugerencia. Si desea obtener más información sobre estadísticas (la base), puede leer:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

Este es un libro bastante estándar para los estadísticos y tiene muchos resultados interesantes. No necesita pasar por todas las pruebas de los teoremas, pero es posible que desee hacer algunos ejercicios para sentirse más seguro con los resultados.

Si desea obtener más información sobre la econometría (modelos de datos), puede echar un vistazo a:

Hayashi, F. (2000): Econometrics, Princeton University Press

Otra persona realmente preguntó algo similar a lo que usted pidió y obtuvo una buena respuesta: Qué hacer después de "Casella & Berger" .

Además, si realmente tiene la intención de leer estos libros, este programa de estudios de un curso de econometría puede darle una buena dirección y ritmo sobre qué leer (CB y Hayashi) y cuándo leer.

Guilherme Salomé
fuente
Gracias por la sugerencia, sin embargo, el primer libro que menciona tiene alrededor de 660 páginas ... He leído libros más grandes, pero ¿hay algo pequeño, simple y rápido para que pueda obtener una comprensión básica?
Juan Antonio Gómez Moriano
3
Casella y Berger le darán una parte de la teoría de la estadística, pero aprenderá muy poco sobre el análisis de datos.
Glen_b
1
@JuanAntonioGomezMoriano ¿qué tan pequeño estabas después? Siempre fui un fanático de Cómo mentir con las estadísticas como punto de partida.
icc97
(-1) Suenan como elecciones perfectas para alguien que prefiere un enfoque matemático o teórico de las estadísticas, más o menos lo contrario de lo que solicitó el OP.
Gala del
1
Dijo que necesitaba un conocimiento más "formal" y un conocimiento básico sobre estadísticas.
Guilherme Salomé
2

Sugeriría un nuevo libro que salió desde la pregunta original: Replanteamiento estadístico: un curso bayesiano con ejemplos en R y Stan por Richard McElreath, CRC Press.

Está muy bien escrito y utiliza un enfoque bayesiano. Es muy interactivo, y querrá resolver los problemas o puede llegar a la mitad y comenzar a perderse.

Comienza muy básico y termina con modelos de varios niveles, y está dirigido a científicos bastante avanzados que tienen algún conocimiento estadístico pero que no se sienten cómodos en general con las estadísticas como se les enseñó. Así que no puedo decir exactamente que es un libro para principiantes, pero comienza de manera muy simple y tiene un arco y un estilo maravillosos.

La parte "Stan" del título es una herramienta de muestreo bayesiano de uso general. Esencialmente, es un lenguaje de programación que se compila automáticamente en C ++ y luego se compila en un ejecutable. (La inferencia bayesiana es general, a diferencia de las alternativas, por lo que puede tener una herramienta generalizada).

Wayne
fuente
1

Pensé que lanzaría esta respuesta para la posteridad, incluso si es probable que sea demasiado tarde para ser útil para usted. All of Statistics de Larry Wasserman se concibió como un curso para personas con experiencia en aprendizaje automático, otras disciplinas de comp. Al tener una falta similar de estadísticas formales, algunos amigos y yo formamos un grupo de autoaprendizaje para estudiarlo en la escuela de posgrado. Creo que realmente me beneficié de esa experiencia.

Los temas adicionales que Wasserman incluye más allá del material típico del curso de "probabilidad e inferencia estadística", como modelos gráficos y bootstrapping, son particularmente relevantes para alguien que trabaja en el aprendizaje automático. Debo decir que el libro puede ser bastante conciso en comparación con algo como Casella & Berger, por lo que si desea más detalles o motivación para ciertas partes (especialmente pruebas) puede que tenga que complementarlo con otro material de lectura. Dicho esto, también encontré que el libro está escrito claramente con una buena cantidad de problemas de práctica, y es una excelente referencia rápida.

Un mes no es mucho tiempo. Sin embargo, si establece un ritmo muy agresivo, creo que ciertamente puede sacar mucho provecho de este texto en un semestre: por ejemplo, hicimos nuestro grupo de autoaprendizaje durante el verano. Eso es especialmente cierto si está interesado principalmente en el modelado lineal, que alcanzará con Ch. 13-14.

Patrick B.
fuente