Sospecho que la mayoría de los usuarios de herramientas estadísticas son usuarios auxiliares (personas que han tenido poca o ninguna capacitación formal en estadística). Es muy tentador para los investigadores y otros profesionales aplicar métodos estadísticos a sus datos simplemente porque lo han visto "hecho antes" en artículos revisados por pares, literatura gris, la web o en una conferencia. Sin embargo, hacerlo sin una comprensión clara de los supuestos requeridos y las limitaciones de la herramienta estadística puede conducir a resultados erróneos, ¡errores a menudo no reconocidos!
Encuentro que los estudiantes de pregrado (particularmente en las ciencias sociales y naturales) no son conscientes de los escollos estadísticos o consideran que estos son intrascendentes (este último es el caso más frecuente). Aunque se pueden encontrar ejemplos de uso incorrecto de herramientas estadísticas en muchos libros de texto de nivel introductorio, en la web o en StackExchange, me resulta difícil encontrar ejemplos del mundo real que hayan tenido resultados perjudiciales (por ejemplo, costo en $, vidas afectadas y carreras perdidas) . Con ese fin, estoy buscando ejemplos del mundo real que resalten el mal uso de los métodos estadísticos para los cuales:
- los métodos estadísticos utilizados generalmente se cubren en cursos introductorios de estadísticas (es decir, estadísticas inferenciales, regresiones, etc.)
- El resultado final ha tenido consecuencias costosas (dólares perdidos, vidas impactadas, carreras destrozadas, etc.)
- los datos están disponibles para su uso como ejemplos de trabajo en un curso (el propósito es que los estudiantes trabajen a través de ejemplos del mundo real que hayan tenido consecuencias en el mundo real).
Un ejemplo no estadístico que me gusta mencionar a los estudiantes cuando discuten la importancia de definir adecuadamente las unidades en un proyecto de investigación es el "accidente métrico" que condujo a la pérdida de un satélite de $ 125 millones. Esto generalmente invoca un factor: -o de los estudiantes y parece tener una impresión duradera (al menos a lo largo de sus cortas vidas académicas).
fuente
Respuestas:
No estoy seguro de la disponibilidad de datos, pero un gran ejemplo (si esa es la palabra correcta) de estadísticas pobres es el Estudio de Enfermeras de Harvard sobre la efectividad de la terapia de reemplazo hormonal (TRH) en mujeres menopáusicas.
¿Cuál es la idea general? El estudio de enfermeras sugirió que la TRH fue beneficiosa para las mujeres posmenopáusicas. Resulta que este resultado surgió porque el grupo de control era muy diferente del grupo de tratamiento y estas diferencias no se tuvieron en cuenta en el análisis. En ensayos aleatorios posteriores, la TRH se ha relacionado con cáncer, ataque cardíaco, accidente cerebrovascular y coágulos sanguíneos. Con las correcciones apropiadas, el estudio de las enfermeras también revela estos patrones.
No puedo encontrar estimaciones para las muertes de EE. UU. Relacionadas con la TRH, pero la magnitud fue de decenas de miles. Un artículo vincula 1000 muertes en el Reino Unido a la TRH.
Este artículo de la revista New York Times proporciona buenos antecedentes estadísticos de los problemas de confusión presentes en el estudio.
Hay una discusión académica en este número del American Journal of Epidemiology. Los artículos comparan los resultados del estudio de observación de enfermeras con los de la Iniciativa de Salud de la Mujer, basados en ensayos aleatorios.
También hay discusión (por muchos de los mismos individuos) sobre un tema de Biometrics Ver el comentario de Freedman y Petitti en particular [ versión prepub ].
fuente
La publicación de 1933 de El triunfo de la mediocridad en los negocios de Horace Secrist ofrece un maravilloso ejemplo histórico . En ese momento, Secrist era un estadístico bien establecido, autor de un libro de texto (c. 1919, recuerdo), bien conectado en la Asociación Americana de Estadística, y jefe de un grupo de investigación estadística en la Universidad Northwestern. Él y su personal habían pasado la década anterior compilando series temporales de datos comerciales, que se reproducen y analizan minuciosamente en el libro. Estaba destinado a ser un chef d'oeuvre por un estadístico ambicioso.
La revisión del libro de Harold Hotelling , que apareció en JASA más tarde ese año, señaló que Secrist simplemente había documentado cientos de ejemplos de regresión a la media (un tema fundamental en cualquier curso introductorio de estadística hoy, punto # 1 de la pregunta). Secrist se opuso en una respuesta publicada. La respuesta de Hotelling a eso es un clásico:
[JASA v. 29 # 186, junio de 1934, p. 199.]
Secrist parece haberse desvanecido rápidamente de la escena estadística poco después de eso ("carreras arruinadas", punto # 2 en la pregunta). Su libro aún está disponible. (Hace unos años obtuve una buena copia limpia, obviamente poco leída, a través del Préstamo interbibliotecario.) De él puede extraer cualquier número de conjuntos de datos de ejemplo (punto # 3 de la pregunta).
Steven Stigler relata esta historia en un libro y un documento, La historia de las estadísticas en 1933 .
fuente
Me parece que la toma de Wired sobre la caída del mercado de valores de 2008 podría ser un ejemplo informativo. No puedo comentar si sus conclusiones son correctas o no, pero la idea de usar correlaciones sobre datos que no son una muestra representativa parece algo apropiado para las circunstancias que sugieres. También es actual, por lo que podría mantenerlos interesados.
fuente
Pensé que podría encontrar este Ted Talk interesante y relevante:
fuente