La inspiración para esta pregunta proviene del conocido artículo de Leo-Breiman, Estadística: Las dos culturas (acceso abierto disponible). El autor compara lo que ve como dos enfoques dispares para analizar datos, tocando ideas clave en estadística clásica y aprendizaje automático. Sin embargo, el artículo es inteligible para una amplia audiencia, posiblemente para cualquiera que trabaje con datos, independientemente de si han seguido estadísticas a nivel de doctorado o solo han tomado un curso introductorio. Además, el artículo es estimulante . Es decir, genera fácilmente discusión (como lo demuestra la serie de comentarios animados publicados en el mismo número).
Tengo curiosidad por descubrir más artículos con estas cualidades. Es decir, artículos que:
- Toca los conceptos fundamentales en estadística / análisis de datos.
- Puede ser entendido por una amplia audiencia en términos de variación en el enfoque de investigación y capacitación estadística formal
- Estimular la discusión, ya sea a través de la perspicacia o la controversia.
fuente
Respuestas:
Shmueli, Galit. "¿Para explicar o predecir?" Ciencia estadística (2010): 289-310.
Creo que coincide con tus tres puntos.
Habla sobre modelos explicativos versus modelos predictivos (los términos deben explicarse por sí mismos) y señala que las diferencias entre ellos a menudo no se reconocen.
Plantea el punto de que dependiendo del objetivo del modelado (explicativo versus predictivo), se podrían usar diferentes estrategias de construcción de modelos y se podrían seleccionar diferentes modelos como "el mejor" modelo.
Es un artículo bastante completo y una lectura agradable. Una discusión sobre esto se resume en la publicación del blog de Rob J. Hyndman . Una discusión relacionada sobre Cross Validated está en este hilo (con muchos votos a favor). Otra pregunta (sin respuesta) sobre el mismo tema es esta .
fuente
Muchos no lo saben, pero cuando los gigantes de la profesión todavía estaban entre nosotros, no se llevaban bien entre ellos. El debate sobre los fundamentos de la prueba de hipótesis específicamente, ya sea inductivo o deductivo, vio algunos insultos bastante serios volando entre Fisher, por un lado, y Neyman-Pearson, por el otro. Y el problema nunca se resolvió durante sus vidas.
Mucho después de que todos hayan pasado, Lehmann intenta cerrar la brecha y, en mi opinión, hace un buen trabajo, ya que muestra que los enfoques son complementarios en lugar de mutuamente excluyentes. Esto es lo que los estudiantes aprenden hoy en día por cierto. Necesita saber algunas cosas básicas sobre la prueba de hipótesis, pero de lo contrario puede seguir el documento sin ningún problema.
fuente
Wilk, MB y Gnanadesikan, R. 1968. Métodos de trazado de probabilidad para el análisis de datos. Biometrika 55: 1-17. Enlace Jstor si tiene acceso
Este documento tiene, en el momento de mi escritura, casi 50 años, pero aún se siente fresco e innovador. Utilizando una gran variedad de ejemplos interesantes y sustanciales, los autores unifican y amplían una variedad de ideas para trazar y comparar distribuciones utilizando el marco de parcelas QQ (cuantil-cuantil) y PP (probabilidad-probabilidad). Las distribuciones aquí significan ampliamente cualquier conjunto de datos o de números (residuales, contrastes, etc., etc.) que surjan en sus análisis.
Las versiones particulares de estas gráficas se remontan a varias décadas, más obviamente gráficas de probabilidad normal o de puntuaciones normales. que son en estos términos gráficos cuantil-cuantil, es decir, gráficos de cuantiles observados versus cuantiles esperados o teóricos de una muestra del mismo tamaño de una distribución normal (gaussiana). Pero los autores muestran, con modestia pero con confianza, que las mismas ideas pueden extenderse fácilmente, y prácticamente con la informática moderna, para examinar otros tipos de cuantiles y trazar los resultados automáticamente.
Los autores, que trabajaban en Bell Telephone Laboratories, disfrutaron de las instalaciones informáticas de vanguardia, e incluso muchas universidades e instituciones de investigación tardaron aproximadamente una década en ponerse al día. Incluso ahora, las ideas en este documento merecen una aplicación más amplia de la que tienen. Es un texto o curso introductorio raro que incluye cualquiera de estas ideas además de la trama QQ normal. Los histogramas y las gráficas de caja (cada una de ellas muy útil, pero no obstante incómoda y limitada de varias maneras) continúan siendo los principales elementos básicos cuando se introducen las gráficas de distribuciones.
A nivel personal, aunque las ideas principales de este documento han sido familiares durante la mayor parte de mi carrera, disfruto releerlo cada dos años más o menos. Una buena razón es el placer por la forma en que los autores producen ideas simples pero poderosas con buenos resultados con ejemplos serios. Otra buena razón es la forma en que el documento, que está escrito de manera concisa, sin el más mínimo rastro de arrogancia, insinúa extensiones de las ideas principales. Más de una vez, he redescubierto giros en las ideas principales cubiertas explícitamente en sugerencias laterales y comentarios adicionales.
Este no es solo un documento para aquellos especialmente interesados en gráficos estadísticos, aunque en mi opinión eso debería incluir a todos los interesados en estadísticas de cualquier tipo. Promueve formas de pensar acerca de las distribuciones que son prácticamente útiles para desarrollar las habilidades e ideas estadísticas de cualquier persona.
fuente
Ioannidis, John PA "Por qué los hallazgos de investigación más publicados son falsos". PLoS Medicine (2005)
Ioannidis, John PA "Cómo hacer realidad más investigaciones publicadas". PLoS Medicine (2014)
Debe leer para cada investigador / estadístico / analista que quiera evitar los peligros de usar e interpretar estadísticas incorrectamente en la investigación. El artículo de 2005 ha sido el más visitado en la historia de la Biblioteca Pública de Ciencias, y ha generado mucha controversia y discusión.
fuente
Tukey, JW (1960) Conclusiones vs Decisiones Technometrics 2 (4): 423-433
Este documento se basa en una charla de Tukey después de la cena y hay un comentario que dice que "se produjo una discusión considerable" por lo que coincide con al menos el tercio de sus puntos.
Leí este documento por primera vez cuando estaba completando un doctorado en ingeniería y aprecié su exploración de los aspectos prácticos del análisis de datos.
fuente
Efron y Morris, 1977, la paradoja de Stein en estadística .
Efron y Morris escribieron una serie de documentos técnicos sobre el estimador James-Stein en la década de 1970, enmarcando la "paradoja" de Stein en el contexto empírico de Bayes. El artículo de 1977 es uno popular publicado en Scientific American .
Es una gran lectura.
fuente
Bueno, a pesar del mayor interés en Roy Model entre los economistas (pero puedo estar equivocado), su documento original "Some Thoughts on the Distribution of Earnings" de 1951, es una discusión perspicaz y no técnica sobre el problema de la autoselección. Este documento sirvió de inspiración para los modelos de selección desarrollados por el premio nobel James Heckman. Aunque viejo, creo que coincide con tus tres puntos.
fuente