Un buen libro con igual énfasis en teoría y matemáticas.

10

He tenido suficientes cursos sobre estadísticas durante mis años escolares y en la universidad. Tengo una buena comprensión de los conceptos, como CI, valores p, interpretación de significación estadística, pruebas múltiples, correlación, regresión lineal simple (con mínimos cuadrados) (modelos lineales generales) y todas las pruebas de hipótesis. Me lo habían presentado gran parte de los días anteriores, principalmente matemáticamente. Y últimamente, con la ayuda del libro Bioestadística intuitiva , he comprendido una comprensión sin precedentes de la teoría conceptual real, creo.

Ahora, lo que me falta es la comprensión de los modelos de ajuste (estimación de parámetros para modelar) y similares. En particular, conceptos como la estimación de máxima verosimilitud, modelos lineales generalizados , enfoques bayesianos a las estadísticas inferenciales siempre me parecen extraños. No hay suficientes ejemplos o tutoriales o conceptualmente sólidos, como uno encontraría en modelos probabilísticos simples u otros temas (básicos) en Internet.

Soy bioinformático y trabajo en datos de RNA-Seq que tratan con recuentos de lectura sin procesar para encontrar, digamos, expresión génica (o expresión génica diferencial). Desde mi trasfondo, incluso si no estoy familiarizado con los modelos estadísticos, puedo comprender la razón de un supuesto de distribución de Poisson y binomios negativos, etc. Pero algunos documentos tratan de modelos lineales generalizados y estiman un MLE, etc. Creo que tengo los antecedentes necesarios para entender.

Supongo que lo que estoy pidiendo es un enfoque que algunos expertos entre ustedes consideren útil y (un) libro (s) que me ayuda a comprender estos conceptos de una manera más intuitiva (no solo matemática rigurosa, sino teoría respaldada por las matemáticas). Como voy a aplicarlos principalmente, estaría satisfecho (en este momento) con comprender qué es qué y más tarde, puedo volver a las pruebas matemáticas rigurosas ... ¿Alguien tiene alguna recomendación? No me importa comprar más de 1 libro si los temas que solicité están realmente dispersos para ser cubiertos en un libro.

¡Muchas gracias!

Arun
fuente
¿Podría recomendarme algunas buenas fuentes para aprender sobre los datos de RNA-Seq y los desafíos estadísticos en este campo?
Biostat
1
biostat, claro, el sitio web seqanswers.com es un muy buen recurso para NGS. Puede comenzar con las diferentes tecnologías y cómo funcionan desde aquí: goo.gl/NLuvJ Estos son algunos documentos que explican algunos problemas estadísticos con los datos NGS. En resumen, son una estimación de varianza técnica y biológica (con respecto a la expresión génica). 1) Uno de los primeros documentos que evalúa la variación técnica: ncbi.nlm.nih.gov/pubmed/18550803 2) DESeq: una herramienta para la detección de la expresión génica: ncbi.nlm.nih.gov/pubmed?term=DESeq%20simon%20anders
Arun
1
Convertido a CW porque parece que se ofrecerán un montón de buenas sugerencias y no existe un estándar objetivo aparente para decidir el "mejor" entre ellos. Espero que esto les facilite a los lectores votar muchas de las respuestas también :-).
whuber
whuber, claro! tiene sentido. ¿Puedo hacer una publicación wiki comunitaria? o requiere privilegios de moderador?
Arun

Respuestas:

5

Encontrará todo lo que no sea bayesiano sobre lo que preguntó sobre las Estrategias de modelado de regresión de Frank Harrell . Dejaría las recomendaciones bayesianas a personas más conocedoras (aunque tengo a Gelman, Carlin, Stern y Rubin , así como a Gilks, Richardson y Speigelhalter , en mi estantería). Debería haber algunos libros de biostato bayesiano en el mercado.

Actualización: McCullach y Nelder (1989) es un libro clásico sobre GLM, por supuesto. Fue innovador para su época, pero francamente lo encuentro bastante aburrido. Además, no cubre las adiciones posteriores como diagnósticos residuales, modelos inflados a cero o extensiones multinivel / jerárquicas. Hardin e Hilbe (2007) cubren algunas de estas cosas más nuevas con buenos detalles con ejemplos prácticos en Stata (donde GLMs y extensiones están muy bien implementadas; Hardin solía trabajar en Stata Corp. escribiendo muchos de estos comandos, además de contribuir al estimador de sándwich).

StasK
fuente
Hola StasK, muchas gracias! Creo que el modelo de regresión satisfaría mis requisitos. ¿Cuánto cubren los GLM? También veo que sus referencias sobre la inferencia bayesiana son las estándar que siempre encuentro recomendadas. En su opinión, ¿qué tan fáciles / difíciles son de seguir (como si el nivel fuera demasiado avanzado)? Además, ¿has echado un vistazo al libro Modelos lineales generalizados ? Uno de los autores es JA Nelder. Además, también me gustaría comprar este libro sobre modelos estadísticos . ¿Tienes alguna idea sobre este? ¡Gracias!
Arun
No he visto este libro de Freedman. Es bastante interesante, aunque parece ser bastante ligero en términos de rigor, y no estoy seguro de estar contento con eso. (Un libro que es muy ligero en matemáticas que habla de regresión sin álgebra matricial, pero MUY profundo en rigor científico, es Econometría en su mayoría inofensiva por Angrist y Pischke, y si trabaja con modelos causales, este libro es imprescindible). Realmente no conozco sus antecedentes matemáticos / estadísticos, por lo que me será difícil juzgar si estos libros serían difíciles. Algunos libros bayesianos podrían ser; tienden a asumir que ya conoces MLE y GLM.
StasK
1
He actualizado mi respuesta para incluir la referencia de McCullach y Nelder.
StasK
Soy un ingeniero electrónico. convertido en bioinformático. He tenido cursos sobre estadística (para teoría de la comunicación), probabilidad y procesos aleatorios, me siento cómodo con el cálculo (aunque un poco oxidado) y también con álgebra lineal. Por supuesto, estos son en su mayoría de nivel de pregrado ... Mi objetivo es ser conceptualmente sólido (más de interpretaciones geométricas, comprensión de los métodos y lo más importante el propósito), etc. Por supuesto, no me importan las matemáticas, si es que viene junto con estas recetas. Gracias de nuevo por sus recomendaciones!
Arun
3

Yo recomendaría seguir dos libros:

  1. Métodos estadísticos para bioinformática.
  2. Los elementos del aprendizaje estadístico.
Biostat
fuente
Estos libros explican cosas buenas, pero no las cosas que el OP preguntó.
StasK
@StasK, ¿Podría explicar qué cosas no están en los libros anteriores?
Biostat
Enseñé desde HTF, y todo lo que enseñé sobre funciones básicas, grados efectivos de libertad, selección de modelos, lazo, validación cruzada, etc. MLE y GLM en los que el OP estaba interesado se mencionan de pasada, en el mejor de los casos. Se supone que el estudiante de estadística está familiarizado con estas cosas de su entrenamiento estadístico general, o los estudiantes de CS usarían SVM en lugar de regresión logística como la reacción instintiva a los datos de resultados binarios. Las cosas bayesianas también se mencionan solo en la medida en que las reglas de decisión bayesianas son óptimas, en cierto sentido; sin MCMC o conjugación, por ejemplo.
StasK
¿Has leído el libro "Métodos estadísticos para bioinformática"?
Biostat
@biostat, no, no lo he hecho. No trabajo en bioinformática, pero sé que es un mundo ligeramente diferente. Entonces no puedo hacer ninguna recomendación razonable. En mi opinión, la rama de bioestadística que se ocupa de modelos como GLM, GEE, modelos longitudinales y de supervivencia tiene más en común con la econometría (así que el libro de Wooldridge sobre modelos de datos de panel y de sección transversal podría ser una buena recomendación para algunas personas que trabajan en bioestadística). con estos modelos) que con la genética estadística, el control de la tasa de error familiar y la minería de datos, que parece ser su dominio de experiencia.
StasK