¿Cuáles son algunos documentos estadísticos aplicados interesantes y bien escritos?

28

¿Cuáles son algunos buenos documentos que describen aplicaciones de estadísticas que serían divertidas e informativas de leer? Para ser claros, en realidad no estoy buscando documentos que describan nuevos métodos estadísticos (por ejemplo, un documento sobre regresión de ángulo mínimo), sino documentos que describan cómo resolver problemas del mundo real.

Por ejemplo, un artículo que encajaría con lo que estoy buscando es el documento sobre el clima del segundo Cross-Validated Journal Club . Estoy buscando más documentos estadísticos, en lugar de documentos de aprendizaje automático, pero supongo que es una especie de distinción difusa (clasificaría los documentos del Premio Netflix como un poco límite, y un documento sobre análisis de sentimientos como algo estoy no buscando).

Lo pregunto porque la mayoría de las aplicaciones de estadísticas que he visto son los pequeños fragmentos que has visto en los libros de texto o cosas relacionadas con mi propio trabajo, por lo que me gustaría ampliar un poco.

raegtin
fuente
44
¿Tiene algunos intereses generales que le gustaría enumerar? Eso podría ayudar a guiar sugerencias. Las aplicaciones de estadísticas se han vuelto bastante generalizadas en una notable variedad de campos.
cardenal
1
@cardinal, no, no hay intereses particulares: el propósito era diversificar las cosas que normalmente leía, así que estoy tratando de no limitar ninguna respuesta. (Esto puede que haga la pregunta un poco demasiado amplia, pero supongo que estoy buscando "Lo mejor" listas personales de las personas.)
raegtin
1
Un clásico de lectura obligada, especialmente porque todos los modelos de probabilidad introducidos están motivados por un razonamiento "físico" sobre el problema, en lugar de sacarlo de un sombrero, es: F. Mosteller, DL Wallace (1963): Inferencia en un problema de autoría: Un estudio comparativo de los métodos de discriminación aplicados a la autoría de los documentos federalistas en disputa , J. Am. Stat. Asoc. 58 (302), págs. 275-309. También en este enlace .
pglpm

Respuestas:

12

Es un poco difícil para mí ver qué papel podría interesarle, así que permítame sugerirle los siguientes, de la literatura psicométrica:

Borsboom, D. (2006). El ataque de los psicometristas . Psychometrika , 71 , 425-440.

para vestir la escena (¿Por qué necesitamos usar modelos estadísticos que reflejen mejor las hipótesis subyacentes comúnmente encontradas en la investigación psicológica?), y

Borsboom, D. (2008). Perspectivas psicométricas en sistemas de diagnóstico . Journal of Clinical Psychology , 64 , 1089-1108.

para una perspectiva aplicada en la medicina de diagnóstico (transición de la evaluación sí / no como se usa en el DSM-IV al enfoque "dimensional" destinado al DSM-V). Una revisión más amplia de modelos variables latentes en la investigación biomédica que me gusta es:

Rabe-Hesketh, S. y Skrondal, A. (2008). Modelos de variables latentes clásicas para la investigación médica . Métodos estadísticos en investigación médica , 17 (1) , 5-32.

chl
fuente
@ chl (+1) esos documentos de Borsboom fueron maravillosos, realmente ampliaron mi forma de pensar sobre la medición
richiemorrisroe
+1, también disfruto de Borsboom. Para aquellos interesados ​​en el artículo de The Attack, creo que también estaría interesado en "The Concept of Validity ", rhowell.ba.ttu.edu/borsboomValidity2004.pdf . Aunque es un poco más detallado, por lo que no es tan fácil de seguir como el artículo de Attack.
Andy W
10

Aquí hay cinco artículos muy citados de los últimos 40 años del Journal of the Royal Statistical Society, Serie C: Estadísticas aplicadas con una aplicación clara en el título que me llamó la atención mientras escaneaba los resultados de búsqueda de Web of Knowledge:

parada
fuente
9

En un nivel más amplio, recomendaría el documento ["Modelado estadístico: las dos culturas"] [1] de Leo Breiman en 2001 (citado 515) Sé que fue cubierto recientemente por el club de revistas y me pareció muy interesante. He c & p'd el resumen.

Abstracto. Hay dos culturas en el uso de modelos estadísticos para llegar a conclusiones de los datos. Se supone que los datos son generados por un modelo de datos estocástico dado. El otro usa modelos algorítmicos y trata el mecanismo de datos como desconocido. La comunidad estadística se ha comprometido con el uso casi exclusivo de los modelos de datos. Este compromiso ha llevado a una teoría irrelevante, conclusiones cuestionables, y ha evitado que los estadísticos trabajen en una amplia gama de problemas actuales interesantes. El modelado algorítmico, tanto en teoría como en práctica, se ha desarrollado rápidamente en campos fuera de las estadísticas. Se puede usar tanto en conjuntos de datos complejos grandes como como una alternativa más precisa e informativa al modelado de datos en conjuntos de datos más pequeños. Si nuestro objetivo como campo es utilizar datos para resolver problemas,

[1]: https://doi.org/10.1214/ss/1009213726 (acceso abierto)

Parbury
fuente
8

Desde una perspectiva de epidemiología genética, ahora recomendaría la siguiente serie de documentos sobre estudios de asociación de todo el genoma :

  1. Cordell, HJ y Clayton, DG (2005). Estudios de asociación genética . Lancet 366, 1121-1131.
  2. Cantor, RM, Lange, K. y Sinsheimer, JS (2010). Priorizar los resultados de GWAS: una revisión de métodos estadísticos y recomendaciones para su aplicación . The American Journal of Human Genetics 86, 6–22.
  3. Ioannidis, JPA, Thomas, G., Daly, MJ (2009). Validar, aumentar y refinar las señales de asociación de todo el genoma . Nature Reviews Genetics 10, 318-329.
  4. Balding, DJ (2006). Un tutorial sobre métodos estadísticos para estudios de asociación de poblaciones . Nature Reviews Genetics 7, 781-791.
  5. Green, AE y col. (2008) Uso de datos genéticos en neurociencia cognitiva: desde dolores de crecimiento hasta ideas genuinas . Nature Reviews Neuroscience 9, 710-720.
  6. McCarthy, MI y col. (2008) Estudios de asociación de genoma completo para rasgos complejos: consenso, incertidumbre y desafíos . Nature Reviews Genetics 9, 356-369.
  7. Comité Coordinador del Consorcio Psiquiátrico GWAS (2009). Estudios de la Asociación Genomewide: Historia, justificación y perspectivas de los trastornos psiquiátricos . American Journal of Psychiatry 166 (5), 540-556.
  8. Sebastiani, P. y col. (2009) Estudios de asociación de genoma completo y disección genética de rasgos complejos . American Journal of Hematology 84 (8), 504-15.
  9. El Consorcio de Control de Casos de Wellcome Trust (2007). Estudio de asociación de genoma completo de 14,000 casos de siete enfermedades comunes y 3,000 controles compartidos . Nature 447, 661-678.
  10. El Consorcio de Control de Casos de Wellcome Trust (2010). Estudio de asociación de genoma de CNV en 16,000 casos de ocho enfermedades comunes y 3,000 controles compartidos . Naturaleza 464, 713-720.
chl
fuente
2

Un artículo con impacto temprano sobre la investigación estadística bioinformática:

Jelizarow y col . Sobre-optimismo en bioinformática: una ilustración . Bioinformática, 2010

Es una discusión interesante sobre las fuentes de sesgo, el sobreajuste y la pesca de importancia.

Borlaug
fuente