Solicitud de referencia: estadísticas clásicas para científicos de datos de trabajo

10

Soy un científico de datos que trabaja con sólida experiencia en regresión, otros algoritmos de aprendizaje automático y programación (tanto para el análisis de datos como para el desarrollo de software en general). La mayor parte de mi vida laboral se ha centrado en construir modelos para la precisión predictiva (trabajar bajo varias restricciones comerciales) y construir tuberías de datos para apoyar mi propio trabajo (y el de otros).

No tengo entrenamiento formal en estadística, mi educación universitaria se centró en matemáticas puras. Como tal, se han perdido el aprendizaje de muchos de los temas clásicos, especialmente las diversas pruebas de hipótesis populares y técnicas de inferencia.

¿Hay alguna referencia para estos temas que sea apropiada para alguien con mi experiencia y nivel de experiencia? Puedo manejar (y apreciar) el rigor matemático, y también disfrutar de las perspectivas algorítmicas. Tiendo a gustarme las referencias que ofrecen al lector ejercicios guiados, con ambos (o bien) un enfoque matemático y (o) de programación.

Matthew Drury
fuente
2
Como otro Matt de un fondo de matemáticas, con un conocimiento lleno de brechas de estadísticas, ¡puedo relacionarme! ¿Hay áreas / aplicaciones particulares que le interesen? Una cosa a tener en cuenta con las estadísticas clásicas es qué supuestos se utilizan.
GeoMatt22
55
Aquí hay algunas buenas referencias: mathoverflow.net/questions/31655/statistics-for-mathematicians
Alex R.

Respuestas:

3

All of Statistics de Larry Wasserman es un buen libro para obtener un recorrido vertiginoso de estadísticas matemáticas. Fue el primer libro sobre estadística matemática que utilicé yo mismo. Incluye los clásicos como la prueba de hipótesis y la estimación de máxima verosimilitud, pero también tiene una amplia cobertura de temas desarrollados recientemente pero igualmente importantes como bootstrapping. Wasserman siempre tiene un pie en estadística y el otro pie en aprendizaje automático, lo que creo que todos los analistas de datos contemporáneos deberían hacer; Si solo está familiarizado con un campo de los dos, le faltará mucho. Además, el libro tiene muchos buenos ejercicios.

Si tiene experiencia en análisis real y quiere cosas crudas y sin cortar, con lo que me refiero a un tratamiento teórico de la medida de probabilidad y estadística, pruebe la Teoría de la estadística de Mark J. Schervish . Schervish es la mitad de DeGroot y Schervish, cuyo libro menos técnico Probability and Statistics es quizás el libro más popular sobre estadísticas matemáticas en la actualidad. Theory of Statistics es un libro útil para hablar de un tema generalmente reservado para estudiantes graduados que se supone que deben hacer todo el trabajo ellos mismos. Para ser sincero, este libro me pareció muy difícil (aunque no tanto como las estadísticas matemáticas de Jun Shao) y finalmente llegué a sentir el inmenso esfuerzo requerido para dominarlo, no fue un buen uso de mi tiempo como analista de datos aplicados. Pero todavía aprendí mucho y obtuve una buena comprensión de lo que es la teoría de la medida y cómo se puede usar para limpiar las dificultades teóricas que surgen en el enfoque tradicional más ingenuo de la teoría de la probabilidad. También llegué a apreciar mejor las similitudes y diferencias de intercambiabilidad e independencia.

Kodiólogo
fuente
2

Aparte de las muy buenas sugerencias de Kodiologist (+1), también recomendaría mirar el tema de los estudios observacionales . Creo que es un campo muy poco apreciado entre los científicos de datos a pesar del hecho de que en muchos casos los datos analizados son de naturaleza observacional. Creo que esto se debe a que la mayor parte de la bibliografía (especialmente en Bioestadística) supone que al menos algún diseño cuasi experimental ya está en su lugar. Los libros de Paul Rosenbaum Estudios observacionales y Diseño de estudios observacionales son algunas de las referencias más utilizadas.

usεr11852
fuente