El libro de referencia para estadísticas con R: ¿existe y qué debe contener?

25

Fondo

Hay mucha discusión sobre esto, por lo que pensé que podría encontrar mi respuesta de los pasos anteriores en StackExchange y buscando en Google con furia. Después de usar medio día tratando de encontrar solo un libro de referencia para (bio) estadísticas con R, me confundí por completo y tuve que rendirme. Quizás el material gratuito combinado sea en realidad mejor que cualquiera de los libros que puedes comprar en este momento. Averígualo.

Internet está lleno de buena literatura gratuita para el lenguaje R , por lo que realmente no tiene sentido pagar un libro mediocre, que termina siendo utilizado como decoración de oficina la mayor parte del tiempo. El sitio de inicio de R enumera libros relacionados con R y hay muchos de ellos. Para ser más exactos: 115. Solo uno de ellos se anuncia con las palabras " libro de referencia de estadísticas independiente ". Ahora tiene 8 años y puede estar desactualizado. La cuarta edición de Modern Applied Statistics con S es aún más antigua. El R Book a menudo se mastica como demasiado básico y no se recomienda debido a la falta de referencias, código mal formateado y acabado descuidado.

Sin embargo, estoy buscando un libro , que podría usar como referencia independiente para las estadísticas prácticas (en primer lugar) con R (secundaria). El libro debería vivir en el escritorio de mi oficina recogiendo anotaciones, manchas de café y huellas grasientas en lugar de polvo en el estante de libros. Debería reemplazar la colección de pdf gratuitos que he estado usando hasta ahora, sin olvidar que R viene con una excelente biblioteca de referencia. “ ¿Cuál es el enfoque correcto? "," ¿Por qué? "y" técnicamente, ¿cómo funciona? "a menudo son preguntas más candentes que" ¿cómo hacerlo con R? "

Como soy ecologista, me interesan principalmente las aplicaciones a la bioestadística. Sin embargo, dado que estas cosas a menudo están conectadas, una referencia general interdisciplinaria sería lo más valioso para mí.

La tarea

Si existe un libro de este tipo (lo dudo), proporcione el nombre del libro (solo uno por respuesta) y una breve reseña del libro que explique por qué debería nombrarse como libro de referencia para el tema. Dado que esta pregunta no es muy diferente de las existentes, utilice esta banda de rodadura como respuesta. También puede enumerar los defectos del libro para que podamos enumerarlos como las características para el libro de referencia ideal.

Mi pregunta es ¿qué debe contener el libro de referencia de estadísticas (de los tipos más utilizados) con R?

Algunas reflexiones iniciales son las siguientes características generales (por favor, actualice):

  • Grueso como un ladrillo
  • Conciso, pero comprensible
  • Lleno de figuras (con el código R proporcionado)
  • Tablas y diagramas fáciles de entender que describen los detalles más importantes del texto.
  • Texto descriptivo y fácil de entender sobre las estadísticas / métodos que contienen las ecuaciones más importantes.
  • Buenos ejemplos para cada enfoque (con código R)
  • Lista amplia y actualizada de referencias
  • Número mínimo de errores tipográficos

Tabla de contenido

Como no soy estadístico y necesitaría este libro (¿no existe?) Para responder a la pregunta, es difícil para mí escribir sobre el contenido. Debido a que The R Book claramente pretende ser el libro de referencia para las estadísticas con R, pero a menudo es criticado, copié la tabla de contenido del libro como punto de partida para la tabla de contenido del libro de referencia de estadísticas independiente de R. Tarea adicional: proporcione adiciones, sugerencias, eliminaciones, etc. para la tabla de contenido.

  1. Empezando
  2. Fundamentos del lenguaje R
  3. Entrada de datos
  4. Marcos de datos
  5. Gráficos
  6. Mesas
  7. Matemáticas
  8. Pruebas clásicas
  9. Modelado estadístico
  10. Regresión
  11. Análisis de variación
  12. Análisis de covarianza
  13. Modelos lineales generalizados
  14. Datos de recuento
  15. Contar datos en tablas
  16. Proporción de datos
  17. Variables de respuesta binaria
  18. Modelos aditivos generalizados
  19. Modelos de efectos mixtos
  20. Regresión no lineal
  21. Modelos de árboles
  22. Análisis de series temporales
  23. Estadísticas multivariantes
  24. Estadísticas espaciales
  25. Análisis de supervivencia
  26. Modelos de simulacion
  27. Cambiar el aspecto de los gráficos
  28. Referencias y lecturas adicionales
  29. Índice

¿Qué se ha dicho antes?

StackExhange contiene varias pisadas que piden estadísticas y sugerencias de libros R. Los libros para aprender el lenguaje R preguntan sobre un libro de referencia que aprende el lenguaje R sin aspecto estadístico. La programación Art of R está clasificada como la mejor sugerencia individual. Book to Learn Statistics usando R pide un libro introductorio ideal para las estadísticas, que en realidad no es lo mismo que un libro de referencia. Los libros de texto estadísticos de código abierto clasifican las estadísticas multivariadas con R como la mejor alternativa. ¿Qué libro recomendarías para los científicos no estadísticos? pregunta sobre el mejor libro de referencia de estadísticas sin especificar el programa de elección.Referencia o libro sobre simulación de datos de diseño experimental en puntajes R quizás más cercano a mi pregunta. Introducción a la programación científica y la simulación El uso de R es el libro más recomendado aquí y podría estar cerca de lo que estoy buscando. Sin embargo, este libro tampoco será suficiente como libro de referencia único para las estadísticas con R.

Algunas sugerencias para el libro de referencia y sus defectos.

R in Action ha recibido mejores críticas que The R Book, pero aparentemente es bastante introductorio .

Diseño y análisis bioestadístico con R: una guía práctica quizás esté cerca de lo que estoy buscando. Ha recibido una buena crítica , pero aparentemente también contiene muchos errores tipográficos. Además, este libro no se concentra en explicar las estadísticas, sino que ofrece análisis estadísticos como recetas listas para usar por los investigadores.

Los modelos y datos ecológicos en R omiten el nivel introductorio. Esta es una característica muy útil al ver esa palabra "introducción", puntúa 43 apariciones en la lista de libros R , pero tal vez no sea del todo satisfactoria, si buscamos el libro de referencia de estadísticas ...

Introducción a la programación científica y la simulación El uso de R recibió una revisión muy positiva , pero se limita a la simulación de datos.

Richiemorrisroe sugiere que la estadística aplicada moderna con S es suficiente para un libro de referencia de estadísticas independiente con R. ¿Este libro ha recibido excelentes críticas ( 1 , 2 ) y es probablemente el mejor candidato para el título en este momento? La versión más reciente salió hace 10 años, que es bastante tiempo considerando el desarrollo del programa.

Dimitriy V. Masterov sugiere análisis de datos utilizando regresión y modelos multinivel / jerárquicos . Todavía no he revisado este libro.


Después de leer muchas reseñas de libros, parece evidente que el libro perfecto que se pregunta aquí todavía no existe. Sin embargo, quizás sea posible elegir uno que esté bastante cerca. Esta banda de rodadura está pensada como un wiki comunitario para que los usuarios de estadísticas encuentren el mejor libro de referencia existente y como una motivación para que los escritores de libros nuevos y antiguos mejoren su trabajo.

Mikko
fuente
3
(+1) por la buena crítica! Sin embargo, parece que ha respondido su propia pregunta dentro de su propia pregunta ...
ocram
1
Si pasaste tanto tiempo resolviendo esto, elaborando una larga lista propia, e incluso un resumen de dicho libro, tal vez deberías escribir uno. Esta es una recomendación que a menudo doy en las listas de estadísticas y econometría cuando alguien solicita un buen documento de revisión sobre [BLAH] y discute lo que no le gusta de los cinco o diez documentos de revisión existentes: escriba su propio documento en él.
StasK

Respuestas:

12

Personalmente, pensé que las estadísticas aplicadas modernas con S-Plus marca todos los cuadros que ha esbozado. Cada ejemplo tiene código R, dan buenas referencias a otras fuentes, y Venables y Ripley tienen un estilo de escritura maravillosamente conciso y explicativo que realmente aprecié. Tiendo a releer el libro de vez en cuando, y cada vez que obtengo más de él. Por supuesto, su kilometraje puede variar.

richiemorrisroe
fuente
2
Estoy de acuerdo. Tengo muchos libros de estadísticas que están basados ​​en R, y MASS4 es probablemente el más cercano a lo que está buscando, pero en algunos lugares "terso" se vuelve tersamente legible y requiere el mayor conocimiento estadístico de fondo que yo. Dicho esto, tengo el libro casi 10 años y sigo volviendo a él y aprendiendo cosas nuevas. No dejaría que su edad te desanime. Ah, y ahora estoy haciendo un phd de estadísticas :-)
Sean
También vuelvo y vuelvo a MASS, que parece una preferencia revelada por él como libro de referencia.
Peter Ellis
¿Es la versión de 1998 de MASS muy diferente a la de 2003? Preguntándome si la diferencia de contenido es suficiente para pagar alrededor de £ 50 más por ello.
conjeturas
6

Gracias por tan buena pregunta, y especialmente compilando toda esa información. Desafortunadamente, el libro que estás describiendo no existe, y para ser honesto, no podría existir. Si lo que desea principalmente es un libro de referencia para estadísticas, comenzaría con un libro realmente bueno sobre modelos lineales. Mi recomendación es Kutner et al., cumple con los criterios de ser mayor que un ladrillo tanto en volumen como en masa, es muy completo, claro y con muchos ejemplos. De hecho, si elimina el requisito de R, prácticamente borra toda su lista. Me refiero a menudo. Sin embargo, en ~ 1500 páginas, casi solo cubre modelos lineales, es decir, regresión y ANOVA, hay algunos capítulos breves sobre un par de otros temas, pero realmente querrá otros libros para eso. A continuación, obtendría un libro de referencia estadística de primer nivel, en el nivel apropiado para usted, para cualquier otra técnica con la que necesite trabajar (por ejemplo, análisis de supervivencia, análisis espacial, etc.). Si esos libros no usan R para sus ejemplos, es posible que desee obtener un libro específico de R, como uno de los use-R. libros, pero entre la documentación, las viñetas, las listas de correo de R-help, StackOverflow y CV, puede que no sea necesario. Si desea aprender a programar en R de la manera correcta, también debe obtener uno de esos libros. En este punto, tienes al menos 4 libros. Lo siento, pero así son las cosas. Nadie que trabaje extensamente con estadísticas tiene un solo libro que cubre todo.

gung - Restablece a Monica
fuente
5

No creo que exista un libro como este. El libro que creo que se acerca más es el Análisis de datos de Gelman y Hill usando regresión y modelos multinivel / jerárquicos .

Contras:

  • Tiene ~ 5 años y está dirigido a científicos sociales.

  • No tiene todo en su lista de TOC (nada espacial, básicamente nada en series de tiempo, etc.)

Pros:

  • Bien escrito

  • Tiene una lista de erratas y una tabla de contenido en el enlace.

  • Cubre aspectos clave como datos faltantes, que no están en su lista numerada.

  • Golpea la mayoría de los elementos en su lista de viñetas.

  • Muchos gráficos y código R (algunos códigos de Bugs para el multinivel).

  • Todos los datos / códigos están disponibles para descargar.

Dimitriy V. Masterov
fuente
4

Estoy trabajando a través de Elementos de aprendizaje estadístico . Este libro cubre una increíble variedad de técnicas (más de 700 páginas), pero cada enfoque se explica claramente de una manera muy práctica y no muy teórica. No contiene explícitamente nada sobre R, sin embargo, los diagramas y gráficos están claramente hechos con R y hay paquetes en CRAN para todos los temas discutidos. Todos los autores han estado involucrados con el desarrollo de R (así como una buena parte de las técnicas modernas de aprendizaje automático).

Bogdanovist
fuente
2
Incluso hay un paquete R para ese libro: ElemStatLearn :-)
chl
3

Estuve de acuerdo con la respuesta actualmente más votada de que MASS4 se ajustaba bastante bien a la solicitud y tenía la misma experiencia que otro encuestado con dificultades para cumplir con su requisito de un nivel bastante alto de sofisticación estadística. MASS3 fue de hecho mi primer "Rbook" y me sirvió bastante bien en esa capacidad. Compré "The R Book" de Crawley y me pareció insatisfactorio tanto por una descripción inexacta del lenguaje R como por ser poco más que un conjunto de ejemplos trabajados que parecían carecer de profundidad de teoría estadística.

Sin embargo, con el paso del tiempo, he encontrado que las "Estrategias de modelado de regresión" (RMS) de Harrell se ajustan mejor al enfoque "bioestadístico" de esta pregunta, además de tener una buena profundidad. No es un texto introductorio sobre R. Para eso hay que buscar en otro lado y para eso recomiendo uno de Introducción a la programación científica y la simulación usando R [ http://www.crcpress.com/product/isbn/9781420068726] o (a pesar de su nombre) "R for Dummies" escrito por un par de contribuyentes de mucho tiempo a las etiquetas de publicación R de StackOverflow. Solo tengo RMS en su primera edición cuando estaba más centrado en S, pero desde entonces Harrell se ha cambiado a R y es totalmente compatible conrms/HmiscR paquete dúo. Creo que satisface la sugerencia de @ gung de cobertura de especialidad en varios de los dominios enumerados, aunque no para análisis espacial o modelos mixtos.

DWin
fuente
1
Recomiendo encarecidamente tanto RMS como MASS. No estoy en bioestadística, pero la mayoría de los consejos en Harrell son útiles de manera mucho más general. A menudo les pido a los futuros estudiantes de investigación que lean Harrell, o al menos el capítulo 4, y luego a menudo recomiendo MASS como un buen libro general para asegurarme de que estén familiarizados.
Glen_b -Reinstale a Monica
Para el autoestudio general, nomino las "Estadísticas teóricas" de Cox y Hinkleys y el 2º volumen de Feller, "Introducción a la teoría de la probabilidad". Pero eso obviamente no está abordando la parte R de esta pregunta.
DWin
[Los estudiantes que superviso están en áreas fuera de las estadísticas, a pesar de que su trabajo implica bastante ... MASS y RMS son más útiles para ellos que Cox y Hinkley y Feller Vol 2, aunque ambos, junto con Kendall y Stuart - fueron muy valiosos para mi propia experiencia]
Glen_b -Reinstale a Monica
2

Si desea traducir ... (este es un libro complementario de un libro teórico de 4.900 páginas):

Big R Book

Este libro (del cual soy coautor) es una recopilación de 15 años de experiencia en consultoría y enseñanza a nivel de pregrado y posgrado y muestra solo ejemplos de material R para cuyos detalles de matemática (pruebas) se dan en mis 4,900 páginas. libros complementarios donde los cálculos también se realizan a mano con valores numéricos (+500 páginas que estarán disponibles en la próxima edición). Este libro también ofrece la posibilidad de verificar que el software proporciona los valores correctos y es mucho más divertido que hacer cálculos a mano o en MS Excel sobre materias que normalmente se imparten en cursos de posgrado en escuelas europeas. El propósito de este libro también es mostrar que puede usar 1 software en lugar de muchos para obtener los mismos resultados sin costo (en lugar de usar JMP + Minitab + SPSS + SAS + MATLAB juntos). Este libro también muestra las debilidades de R (el mantenimiento del paquete no está garantizado). También es un compendio de preguntas muy valiosas en varios foros y blogs de R. ¡Es gratis y en color!

Vincent ISOZ
fuente
1
¿Podría también proporcionar la "revisión breve" solicitada? ¿Por qué estás recomendando este libro? ¿Cuáles son las cosas buenas (y malas) al respecto?
whuber
Soy uno de los coautores ... no muy neutral para una breve reseña ...
Vincent ISOZ
1
Está bien, estaríamos agradecidos de saber de usted cuáles cree que son los puntos fuertes de su libro o una caracterización de quién se beneficiaría de él. Al revelar su conexión con el libro (que es esencial ), permite a los lectores dar cuenta de eso al evaluar lo que dice. Sospecho que muchos lectores entenderían que usted tiene un conocimiento profundo de este libro y apreciarían lo que dice. Sin proporcionar algún tipo de revisión, su respuesta debería relegarse a un simple comentario que recibiría relativamente poca atención.
whuber