Ejemplos de consecuencias costosas del uso inadecuado de herramientas estadísticas.

12

Sospecho que la mayoría de los usuarios de herramientas estadísticas son usuarios auxiliares (personas que han tenido poca o ninguna capacitación formal en estadística). Es muy tentador para los investigadores y otros profesionales aplicar métodos estadísticos a sus datos simplemente porque lo han visto "hecho antes" en artículos revisados ​​por pares, literatura gris, la web o en una conferencia. Sin embargo, hacerlo sin una comprensión clara de los supuestos requeridos y las limitaciones de la herramienta estadística puede conducir a resultados erróneos, ¡errores a menudo no reconocidos!

Encuentro que los estudiantes de pregrado (particularmente en las ciencias sociales y naturales) no son conscientes de los escollos estadísticos o consideran que estos son intrascendentes (este último es el caso más frecuente). Aunque se pueden encontrar ejemplos de uso incorrecto de herramientas estadísticas en muchos libros de texto de nivel introductorio, en la web o en StackExchange, me resulta difícil encontrar ejemplos del mundo real que hayan tenido resultados perjudiciales (por ejemplo, costo en $, vidas afectadas y carreras perdidas) . Con ese fin, estoy buscando ejemplos del mundo real que resalten el mal uso de los métodos estadísticos para los cuales:

  1. los métodos estadísticos utilizados generalmente se cubren en cursos introductorios de estadísticas (es decir, estadísticas inferenciales, regresiones, etc.)
  2. El resultado final ha tenido consecuencias costosas (dólares perdidos, vidas impactadas, carreras destrozadas, etc.)
  3. los datos están disponibles para su uso como ejemplos de trabajo en un curso (el propósito es que los estudiantes trabajen a través de ejemplos del mundo real que hayan tenido consecuencias en el mundo real).

Un ejemplo no estadístico que me gusta mencionar a los estudiantes cuando discuten la importancia de definir adecuadamente las unidades en un proyecto de investigación es el "accidente métrico" que condujo a la pérdida de un satélite de $ 125 millones. Esto generalmente invoca un factor: -o de los estudiantes y parece tener una impresión duradera (al menos a lo largo de sus cortas vidas académicas).

MannyG
fuente
2
Otro ejemplo no estadístico de Edward Tufte, Powerpoint hace Rocket Science . Aunque está un poco más relacionado con la progresión lógica del pensamiento estadístico en general que con el error métrico que mencionas. ¿También está familiarizado con este libro, El culto a la significación estadística ?
Andy W
@AndyW, no estoy familiarizado con "El culto a la significación estadística". ¿Sabes si los elementos 2 / y 3 / en mi pregunta se abordan en ese libro?
MannyG
No sé acerca de 3, pero si lees la reseña del libro que he vinculado, respondería tu pregunta 2 (¡o leerías el título restante del libro!) De hecho, todo el libro está destinado a tu pregunta # 2 en referencia para interpretar pruebas de significación.
Andy W
@AndyW ese es el libro que iba a mencionar.
Peter Flom - Restablece a Monica
@AndyW, aunque la revisión que usted vincula hace referencia a uno de los ejemplos del mundo real del uso incorrecto de las estadísticas, no me queda claro si se aborda el costo consecuente. Si los costos consecuentes se abordan en el libro, ¿se basan en análisis independientes o en la opinión subjetiva de los autores?
MannyG

Respuestas:

8

No estoy seguro de la disponibilidad de datos, pero un gran ejemplo (si esa es la palabra correcta) de estadísticas pobres es el Estudio de Enfermeras de Harvard sobre la efectividad de la terapia de reemplazo hormonal (TRH) en mujeres menopáusicas.

¿Cuál es la idea general? El estudio de enfermeras sugirió que la TRH fue beneficiosa para las mujeres posmenopáusicas. Resulta que este resultado surgió porque el grupo de control era muy diferente del grupo de tratamiento y estas diferencias no se tuvieron en cuenta en el análisis. En ensayos aleatorios posteriores, la TRH se ha relacionado con cáncer, ataque cardíaco, accidente cerebrovascular y coágulos sanguíneos. Con las correcciones apropiadas, el estudio de las enfermeras también revela estos patrones.

No puedo encontrar estimaciones para las muertes de EE. UU. Relacionadas con la TRH, pero la magnitud fue de decenas de miles. Un artículo vincula 1000 muertes en el Reino Unido a la TRH.

Este artículo de la revista New York Times proporciona buenos antecedentes estadísticos de los problemas de confusión presentes en el estudio.

Hay una discusión académica en este número del American Journal of Epidemiology. Los artículos comparan los resultados del estudio de observación de enfermeras con los de la Iniciativa de Salud de la Mujer, basados ​​en ensayos aleatorios.

También hay discusión (por muchos de los mismos individuos) sobre un tema de Biometrics Ver el comentario de Freedman y Petitti en particular [ versión prepub ].

Charlie
fuente
1
Yo argumentaría en contra del uso de este ejemplo en realidad. Ha habido más trabajo desde 2005, especialmente por Miguel Hernan, ver Estudios observacionales analizados como experimentos aleatorizados: una aplicación para la terapia hormonal posmenopáusica y la enfermedad coronaria , Epidemiología (2008). La conclusión: "En resumen, nuestros hallazgos sugieren que las discrepancias entre las estimaciones de ITT de WHI y NHS podrían explicarse en gran medida por las diferencias en la distribución del tiempo desde la menopausia y la duración del seguimiento. Confusión residual por el efecto del inicio de la terapia en el NHS parece jugar un papel pequeño ".
Fomite
Independientemente de cómo se sienta acerca de dichos estudios, las diferencias entre ellos son más complicadas y complicadas de lo que probablemente sea útil en el entorno propuesto del OP.
Fomite
@EpiGrad, ciertamente este no es mi campo y estoy seguro de que sabes más sobre este ejemplo en particular que yo. Pero, creo que el documento que usted cita señala que esos otros documentos lo hacen. En el documento de OSALRE, expulsan a las mujeres del estudio del NHS que no cumplen con los criterios del estudio WHI. La proporción de mujeres descartadas debe variar entre los grupos de tratamiento y control del NHS (de lo contrario, los resultados no cambiarían). Por lo tanto, están deshaciendo el problema de selección encontrado en el estudio del NHS. [[Continúa]]
Charlie
1
El artículo que me gustó sugiere, al menos para mí, algo más parecido a "Asegúrate de hacer la misma pregunta" en lugar de un problema de confusión total. No me malinterpreten, el tema del NHS / WHI es extremadamente interesante como una cuestión de práctica estadística y de salud pública. Es simplemente más complejo de lo que parece sugerir el desacuerdo inicial, y creo que eso lo hace algo inapropiado para el Punto 1 de la solicitud del OP. El punto 3 también está correcto.
Fomite
2
@EpiGrad, bastante justo. Pero dudo seriamente que encuentre un estudio que tenga un error estadístico deslumbrante que no requiera un poco de investigación para comprender que tuvo consecuencias sustanciales y generalizadas. Sin embargo, quizás otros encuestados matarán mi optimismo en los investigadores (je).
Charlie
8

La publicación de 1933 de El triunfo de la mediocridad en los negocios de Horace Secrist ofrece un maravilloso ejemplo histórico . En ese momento, Secrist era un estadístico bien establecido, autor de un libro de texto (c. 1919, recuerdo), bien conectado en la Asociación Americana de Estadística, y jefe de un grupo de investigación estadística en la Universidad Northwestern. Él y su personal habían pasado la década anterior compilando series temporales de datos comerciales, que se reproducen y analizan minuciosamente en el libro. Estaba destinado a ser un chef d'oeuvre por un estadístico ambicioso.

La revisión del libro de Harold Hotelling , que apareció en JASA más tarde ese año, señaló que Secrist simplemente había documentado cientos de ejemplos de regresión a la media (un tema fundamental en cualquier curso introductorio de estadística hoy, punto # 1 de la pregunta). Secrist se opuso en una respuesta publicada. La respuesta de Hotelling a eso es un clásico:

"Probar" un resultado matemático de este tipo mediante un estudio numérico costoso y prolongado ... es análogo a probar la tabla de multiplicación organizando elefantes en filas y columnas, y luego haciendo lo mismo para muchos otros tipos de animales. La actuación, aunque tal vez entretenida y con cierto valor pedagógico, no es una contribución importante ni a la zoología ni a las matemáticas.

[JASA v. 29 # 186, junio de 1934, p. 199.]

Secrist parece haberse desvanecido rápidamente de la escena estadística poco después de eso ("carreras arruinadas", punto # 2 en la pregunta). Su libro aún está disponible. (Hace unos años obtuve una buena copia limpia, obviamente poco leída, a través del Préstamo interbibliotecario.) De él puede extraer cualquier número de conjuntos de datos de ejemplo (punto # 3 de la pregunta).

Steven Stigler relata esta historia en un libro y un documento, La historia de las estadísticas en 1933 .

whuber
fuente
4

Me parece que la toma de Wired sobre la caída del mercado de valores de 2008 podría ser un ejemplo informativo. No puedo comentar si sus conclusiones son correctas o no, pero la idea de usar correlaciones sobre datos que no son una muestra representativa parece algo apropiado para las circunstancias que sugieres. También es actual, por lo que podría mantenerlos interesados.

John Doucette
fuente