¿Cuáles son los libros sobre la ciencia y las matemáticas detrás de la ciencia de datos? Parece que muchos libros de "ciencia de datos" son tutoriales de programación y no tocan cosas como procesos de generación de datos e inferencia estadística. Ya puedo codificar, en lo que soy débil es en matemáticas / estadísticas / teoría detrás de lo que estoy haciendo.
Si estoy listo para quemar $ 1000 en libros (unos 10 libros ... suspiro), ¿qué puedo comprar?
Ejemplos: análisis de datos categóricos de Agresti , modelos lineales mixtos para datos longitudinales , etc., etc.
Respuestas:
Introductorio:
Cavar más profundo:
Algunos ejemplos de intereses especiales:
Una referencia más amplia funciona en el aprendizaje automático (no es realmente lo que solicitó, sino lo completo):
Papel de bonificación:
fuente
Si solo pudiera recomendarte uno, sería: Los elementos del aprendizaje y la predicción estadística de Hastie, Tibshirani y Friedman. Proporciona las matemáticas / estadísticas detrás de muchas técnicas comúnmente utilizadas en ciencia de datos.
Para las técnicas bayesianas, el análisis de datos bayesianos de Gelman, Carlin, Stern, Dunson, Vehtari y Rubin es excelente.
Inferencia estadística de Casella y Berger es un buen libro de texto de posgrado sobre los fundamentos teóricos de la estadística. Este libro requiere un nivel bastante alto de comodidad con las matemáticas (la teoría de la probabilidad se basa en la teoría de la medida, que no es trivial de entender).
Con respecto a los procesos de generación de datos, no tengo una recomendación para un libro. Lo que puedo decir es que una buena comprensión de los supuestos de las técnicas utilizadas y garantizar que los datos se recopilaron o generaron de una manera que no viola esos supuestos contribuye en gran medida a un buen análisis.
fuente
Otras respuestas recomendaron un buen conjunto de libros sobre las matemáticas detrás de la ciencia de datos. Pero como mencionó, no solo las matemáticas y actividades como la recopilación de datos y la inferencia de datos tienen sus propias reglas y teorías, incluso si no son tan rigurosas como los antecedentes matemáticos (todavía).
Para estas partes, sugiero el libro Beautiful Data: The Stories Behind Elegant Data Solutions que contiene veinte capítulos similares a casos de estudio escritos por personas realmente comprometidas con problemas de análisis de datos del mundo real. No contiene ninguna matemática, pero explora áreas como la recopilación de datos, encontrando formas prácticas de usar los datos en análisis, escalando y seleccionando muy bien las mejores soluciones.
Otro libro realmente interesante es Pensar con datos: cómo convertir la información en ideas , que tampoco es técnico (= tutorial de programación), pero cubre temas importantes sobre cómo usar realmente el poder de la ciencia de datos en la toma de decisiones y problemas del mundo real.
fuente
Me gustan las sugerencias de Amir Ali Akbari, y agregaré algunas propias, centrándome en temas y habilidades que no están cubiertos adecuadamente en la mayoría de los libros de aprendizaje automático y análisis de datos que se centran en matemáticas y / o programación.
Limpieza de datos:
Análisis de datos bayesianos (alternativa a las pruebas de significación de hipótesis nulas estilo Fisher):
Inferencia ante la incertidumbre, la incompletitud, las contradicciones, la ambigüedad, la imprecisión, la ignorancia, etc.
Experimentos:
Simulación:
Elicitación experta, estimación probabilística:
fuente