¿Por qué las correcciones de hipótesis múltiples no se aplican a todos los experimentos desde los albores del tiempo?

24

Sabemos que debemos aplicar correcciones tipo Benjamini Hochberg para pruebas de hipótesis múltiples a experimentos basados ​​en un solo conjunto de datos, para controlar la tasa de descubrimiento falso, de lo contrario, todos los experimentos que den un resultado positivo podrían ser falsos.

Pero, ¿por qué no aplicamos este mismo principio a todos los experimentos desde el principio de los tiempos, independientemente del origen de los datos?

Después de todo, ahora se sabe que más de la mitad de los resultados científicos publicados que se consideran "significativos" son falsos e irreproducibles, y no hay ninguna razón por la que esto no pueda ser tan fácil como el 100%. Como los científicos solo tienden a publicar resultados positivos, no tenemos idea de la cantidad de resultados negativos, por lo que no tenemos idea de si lo que publicamos son solo falsos positivos, resultados positivos que han surgido por casualidad pura bajo la hipótesis nula. Mientras tanto, no hay nada que decir que las matemáticas detrás de las correcciones de pruebas de hipótesis múltiples deberían aplicarse solo a los resultados del mismo conjunto de datos, y no a los resultados de todos los datos experimentales adquiridos a lo largo del tiempo.

Parece que toda la ciencia se ha convertido en una gran expedición de pesca basada en hipótesis falsas o débiles, entonces, ¿cómo podemos controlar esto?

¿Cómo podemos controlar la tasa de descubrimiento falso, si todo lo que publicamos son resultados independientes tomados sin aplicar ninguna corrección para la prueba de hipótesis múltiples en todos los experimentos realizados hasta la fecha?

¿Es posible controlar la tasa de descubrimiento falso sin aplicar alguna corrección?

Kelvin
fuente
2
Se aplica su propia pregunta meta.stats.stackexchange.com/questions/3049/… . Esto agrupa varias declaraciones controvertidas (en algunos casos muy exageradas) con varias preguntas importantes. Creo que esto va en contra del consenso de los consejos ya dados.
Nick Cox
3
Lo siento, no sé a qué respuestas se refiere: no veo referencias aquí. No estoy votando para cerrar, ni (naturalmente) tengo ningún deseo o poder para evitar que la gente responda. Pero, por ejemplo, "desde los albores del tiempo" es un pequeño ejemplo de exageración inútil y hay varios otros en su publicación. Ser provocativo por sí mismo, en mi experiencia en este sitio, no ayudará a su pregunta subyacente. Los lectores tienen que quitar el estilo de la sustancia.
Nick Cox
3
Gracias por la invitación, pero la vida es corta. Dejaré que mi referencia cruzada al meta hilo se mantenga como mi punto principal. He expresado mi opinión sobre el estilo y la sustancia, que puede sostenerse o caer en sus méritos aquí.
Nick Cox
99
Si estoy haciendo ciencia, no me importa mucho los descubrimientos falsos que hayas hecho. De hecho, con respecto a hacer una afirmación científica particular, puede que no me importe mucho qué otros descubrimientos falsos hice . Si no estoy haciendo ciencia, es posible que ni siquiera me importe qué otros descubrimientos falsos hice en este análisis en particular , porque si elijo mi tasa de error tipo I en función de los costos relativos de los dos tipos de errores, he Ya elegí la compensación entre los dos, y no debería estar corrigiendo las comparaciones múltiples.
Glen_b: reinstala a Mónica el
2
Afortunadamente, otros han presentado puntos de vista similares a los míos con coherencia y claridad. Como comentario adicional, aconsejo no combinar la ciencia (lo que sea de algún valor duradero) con su literatura. Hay muchas maneras en que la literatura decepciona: vaguedad, trivialidad, errores lógicos, etc. En resumen, todos están desconcertados por el pensamiento de todas esas pruebas positivas falsas publicadas, pero hay que creerlas y actuar para que tengan efectos duraderos. (Si se trata de un ensayo farmacológico, puede ser un gran problema). Por lo tanto, hay muchas cosas de las que preocuparse, pero no creo que la ciencia esté condenada.
Nick Cox

Respuestas:

20

Obviamente, esto sería una pesadilla absoluta en la práctica, pero supongamos que se puede hacer: nombramos un Sultán Estadístico y todos los que ejecutan una prueba de hipótesis informan sus valores crudos a este déspota. Realiza algún tipo de corrección global (literalmente) de comparaciones múltiples y responde con las versiones corregidas.pags

¿Sería el comienzo de una era dorada de la ciencia y la razón? No, probablemente no.


t
H0 0: Los grupos tienen la misma media.HUNA: Los grupos tienen diferentes medios.
H0 0H0 0la hipótesis es, en cierto sentido, "aburrida", y los investigadores suelen preocuparse por evitar una situación de "falso positivo" en la que afirman haber encontrado una diferencia entre los grupos en los que realmente no existe ninguno. Por lo tanto, solo llamamos resultados "significativos" si parecen improbables bajo la hipótesis nula y, por convención, ese umbral de improbabilidad se establece en 5%.

H0 0

Los diversos enfoques de correcciones múltiples están destinados a ayudarlo a volver a una tasa de error nominal que ya ha elegido tolerar para las pruebas individuales. Lo hacen de maneras ligeramente diferentes. Los métodos que controlan la tasa de error familiar , como los procedimientos Bonferroni , Sidak y Holm , dicen "Querías un 5% de posibilidades de cometer un error en una sola prueba, así que nos aseguraremos de que no haya más de un 5 % de probabilidad de cometer errores en todas sus pruebas ". Métodos que controlan la tasa de descubrimiento falsoen su lugar, diga "aparentemente está de acuerdo con estar equivocado hasta el 5% de las veces con una sola prueba, por lo que nos aseguraremos de que no más del 5% de sus 'llamadas' estén mal cuando realice varias pruebas". (¿Ver la diferencia?)


Ahora, suponga que intentó controlar la tasa de error familiar de todas las pruebas de hipótesis que se hayan ejecutado. Básicamente estás diciendo que quieres una probabilidad <5% de rechazar falsamente cualquier hipótesis nula, alguna vez. Esto establece un umbral imposiblemente estricto y la inferencia sería efectivamente inútil, pero hay un problema aún más apremiante: su corrección global significa que está probando "hipótesis compuestas" absolutamente sin sentido como

H1:El medicamento XYZ cambia el recuento de células T Las uvas crecen mejor en algunos campos. ............Hombres y mujeres comen diferentes cantidades de helado

Con las correcciones de False Discovery Rate, el problema numérico no es tan grave, pero sigue siendo un desastre filosóficamente. En cambio, tiene sentido definir una "familia" de pruebas relacionadas, como una lista de genes candidatos durante un estudio de genómica, o un conjunto de contenedores de frecuencia de tiempo durante un análisis espectral. Adaptar a su familia a una pregunta específica le permite interpretar su error Tipo I de forma directa. Por ejemplo, podría observar un conjunto de valores p corregidos por FWER a partir de sus propios datos genómicos y decir "Hay una probabilidad <5% de que cualquiera de estos genes sean falsos positivos". Esto es mucho mejor que una garantía nebulosa que cubre inferencias hechas por personas que no le importan sobre temas que no le importan.

La otra cara de esto es que la elección apropiada de "familia" es discutible y un poco subjetiva (¿Todos los genes son una familia o puedo considerar las quinasas?), Pero su problema debería informarlo y no creo que nadie ha abogado seriamente por definir a las familias de manera tan extensa.


¿Qué hay de Bayes?

El análisis bayesiano ofrece una alternativa coherente a este problema, si está dispuesto a alejarse un poco del marco de error Frequentista Tipo I / Tipo II. Comenzamos con un previo sin compromiso sobre ... bueno ... todo. Cada vez que aprendemos algo, esa información se combina con la anterior para generar una distribución posterior, que a su vez se convierte en la anterior para la próxima vez que aprendamos algo. Esto le da una regla de actualización coherente y podría comparar diferentes hipótesis sobre cosas específicas calculando el factor Bayes entre dos hipótesis. Probablemente podría factorizar grandes porciones del modelo, lo que ni siquiera lo haría particularmente oneroso.

Hay un meme persistente ... de que los métodos bayesianos no requieren correcciones de comparaciones múltiples. Desafortunadamente, las probabilidades posteriores son solo otra estadística de prueba para los frecuentistas (es decir, las personas que se preocupan por los errores Tipo I / II). No tienen propiedades especiales que controlen este tipo de errores (¿por qué lo harían?) Por lo tanto, estás de vuelta en territorio intratable, pero quizás en un terreno un poco más basado en principios.

El contraargumento bayesiano es que debemos centrarnos en lo que podemos saber ahora y, por lo tanto, estas tasas de error no son tan importantes.


Sobre la reproducción

Parece estar sugiriendo que la corrección incorrecta de comparaciones múltiples es la razón detrás de muchos resultados incorrectos / no reproducibles. Mi sensación es que otros factores tienen más probabilidades de ser un problema. Una obvia es que la presión para publicar lleva a las personas a evitar experimentos que realmente enfatizan su hipótesis (es decir, un mal diseño experimental).

pags

Matt Krause
fuente
Gracias Matt Me encanta la idea de un "Sultán Estadístico". Aún así, ¿es posible controlar la tasa de descubrimiento falso sin aplicar alguna corrección?
Kelvin
99
El punto que estaba tratando de aclarar es que no tiene sentido preocuparse por The False Discovery Rate (o tasa de error familiar) en todos los esfuerzos humanos. Hacerlo requeriría tanta aversión al riesgo que nunca harías nada. En cambio, mantienes el FDR / FWER para experimentos individuales bastante bajo e intentas replicar las cosas importantes que también son interesantes / útiles / etc.
Matt Krause el
Gracias, supongo que al final todo se reduce a la replicación de las cosas que importan. Esto es totalmente consistente con la filosofía de la ciencia, que ninguna hipótesis puede ser probada, solo reforzada con el tiempo por experimentos repetidos.
Kelvin
3
+1 para el Sultán Estadístico. Una consideración importante: ¿cómo debe manejar Sultan el hecho de que los valores p llegan sucesivamente? Un p = 0.045 pésimo que llegue primero se considerará significativo, pero después de un par de siglos no tendrá ninguna posibilidad. Eso no parece tener sentido (cc a @Kelvin). Otra consideración: imagine que Sultan esperaría, digamos 1 año, y aplique la corrección a todos los resultados del año pasado; Me pregunto en qué se convertiría el umbral alfa ajustado en la práctica. ¿Alguna idea sobre eso, Matt? Eso es (¡falsamente!) Suponiendo que todos estén de acuerdo en un alfa común.
ameba dice Reinstate Monica
2
@amoeba, esa es una pregunta interesante y no estoy seguro de saberlo. Nuestro querido Data Despot podría obligar a todos a usar algún tipo de diseño secuencial, lo que podría ayudar, pero todavía está probando esta extraña hipótesis compuesta. Alternativamente, todos podríamos convertirnos en bayesianos y dejar de preocuparnos por nuestro historial de errores Tipo I / II la mayor parte del tiempo. Esto es un poco barato (si no puedes vencerlos, ¡ignóralos!), Pero creo que está cerca de cómo se comportan las personas en la práctica.
Matt Krause
7

Creo que deliberadamente pintas una visión pesimista de la ciencia producida por las estadísticas. De hecho, en mi opinión, las estadísticas no son solo un conjunto de herramientas que proporcionan valores p. También hay un estado de rigor, cuidado y alerta sobre algunos posibles efectos involucrados en el procedimiento de inducción científica ... y, en mi opinión, todo lo que usted dice es más o menos cierto, aquí están algunas de mis opiniones sobre por qué tenemos algunas garantías sobre el conocimiento que producimos:

  • Primero, en general, no se debe llegar a una conclusión solo bajo el argumento de un valor p inferior a un umbral dado.

  • En segundo lugar, que yo sepa, los argumentos del tipo de "más de la mitad de los resultados científicos publicados son incorrectos" son relevantes e interesantes, pero se calculan sobre la base de valores de p aproximadamente iguales a 0.05 (ver, por ejemplo, Confusión con respecto a los valores de p y la tasa de descubrimiento falso ) . Para valores p más bajos, el efecto es mucho más bajo que el anunciado y, en la práctica, no es raro obtener valores p mucho más bajos que 0.05. Además, muchas veces una hipótesis dada es confirmada por varias sub hipótesis que nuevamente reducen los efectos anunciados.

  • En tercer lugar, la cuestión de la reproducibilidad es genuina, pero también es un problema que debe resolver el estadístico identificando y tratando los efectos de confusión, los diseños grupales ... y esto se puede hacer muy bien si se hace con experiencia y rigor.

  • Finalmente, según tengo entendido, un estudio estadístico arquetípico debe basarse más o menos en los siguientes 5 pasos sucesivos:

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    Esta guía general nos impide realizar expediciones de pesca como una herramienta para sacar conclusiones generales.

Para concluir, diría que su intención de protegernos contra malas conclusiones científicas al sobrepasar los valores de p es un poco ilusoria. Preferiría protegernos de malas conclusiones científicas asegurando y alentando análisis adecuados y advertidos (y me gustaría pensar que esta es una razón por la cual tantas personas calificadas están aquí para ayudar a otros en este sitio).

peuhp
fuente
2
No creo que sea útil ponerse a la defensiva. El tema actual de la irreproducibilidad en la ciencia no es solo "interesante", está en un punto de crisis y ha estado en la portada de Nature e incluso The Economist, ya sea para creer en un estudio en particular (o incluso la eficacia de un medicamento aprobado ) ahora no es mejor que un lanzamiento de moneda, a pesar de miles de millones de dólares invertidos.
Kelvin
66
Estoy de acuerdo en que existe una crisis. Mi punto es que puedes inspeccionar la calidad de la moneda. No todos los papeles son de la misma calidad y, según mi experiencia, a veces es fácil señalar un papel defectuoso. No niego el problema, niego la solución: solo
produzco
Ok, gracias, respeto tu respuesta. Pero aún desde un punto de vista estadístico, e independientemente de la calidad de los experimentos, nunca podemos controlar la tasa general de descubrimiento falso sin aplicar alguna corrección, ¿verdad?
Kelvin
0

¿Es posible controlar la tasa de descubrimiento falso sin aplicar alguna corrección?

100unauna

Recuerde que las tasas de error (frecuentas) no afectan en absoluto a las probabilidades sobre una hipótesis probada por cualquier prueba individual, sino como métodos para realizar pruebas con tasas de falla garantizadas a largo plazo. La corrección para comparaciones múltiples es otro método para garantizar tasas de falla a largo plazo: uno para construir métodos compuestos que contengan múltiples pruebas para que se mantenga alguna tasa de falla garantizada a largo plazo para el compuesto.

Si realiza un solo experimento con 100 pruebas e informa que 5 de ellas hablaron en contra de la anulación, afirmando que ha observado algún resultado real, nadie quedará impresionado, sabiendo que, en promedio, entre 100 pruebas de verdaderas anulaciones, el 5% lo hará rechazar; el método que ha empleado, "realizar 100 pruebas e informar si alguna de ellas cumple con el umbral del 5%", tiene una tasa de falla superior al 5%. Por lo tanto, puede optar por controlar las comparaciones múltiples e informar que, por ejemplo, 2 de cada 100 pruebas tenían valores de p inferiores a (5/100 == 0.05)%. Ahora emplea un método que nuevamente tiene una tasa de falla garantizada (por el error de informar al menos una prueba significativa aunque ninguna hipótesis sea falsa) del 5%.

una, umbrales no corregidos). Por el contrario, si todos siempre probaran 100 hipótesis verdaderas por estudio y no aplicaran FEW, el número de experimentos que reportan efectos significativos excedería la tasa de error garantizada del 5%. (Contraste con FDR / False Detection Rate, que no es un método que garantice la tasa de notificación de cualquier prueba significativa en un estudio de múltiples pruebas de hipótesis verdaderas).

jona
fuente
66
Lo que usted llama "tasa de descubrimientos falsos" en su primer párrafo no es lo que se conoce como "tasa de descubrimientos falsos".
ameba dice Reinstate Monica