Sabemos que debemos aplicar correcciones tipo Benjamini Hochberg para pruebas de hipótesis múltiples a experimentos basados en un solo conjunto de datos, para controlar la tasa de descubrimiento falso, de lo contrario, todos los experimentos que den un resultado positivo podrían ser falsos.
Pero, ¿por qué no aplicamos este mismo principio a todos los experimentos desde el principio de los tiempos, independientemente del origen de los datos?
Después de todo, ahora se sabe que más de la mitad de los resultados científicos publicados que se consideran "significativos" son falsos e irreproducibles, y no hay ninguna razón por la que esto no pueda ser tan fácil como el 100%. Como los científicos solo tienden a publicar resultados positivos, no tenemos idea de la cantidad de resultados negativos, por lo que no tenemos idea de si lo que publicamos son solo falsos positivos, resultados positivos que han surgido por casualidad pura bajo la hipótesis nula. Mientras tanto, no hay nada que decir que las matemáticas detrás de las correcciones de pruebas de hipótesis múltiples deberían aplicarse solo a los resultados del mismo conjunto de datos, y no a los resultados de todos los datos experimentales adquiridos a lo largo del tiempo.
Parece que toda la ciencia se ha convertido en una gran expedición de pesca basada en hipótesis falsas o débiles, entonces, ¿cómo podemos controlar esto?
¿Cómo podemos controlar la tasa de descubrimiento falso, si todo lo que publicamos son resultados independientes tomados sin aplicar ninguna corrección para la prueba de hipótesis múltiples en todos los experimentos realizados hasta la fecha?
¿Es posible controlar la tasa de descubrimiento falso sin aplicar alguna corrección?
Respuestas:
Obviamente, esto sería una pesadilla absoluta en la práctica, pero supongamos que se puede hacer: nombramos un Sultán Estadístico y todos los que ejecutan una prueba de hipótesis informan sus valores crudos a este déspota. Realiza algún tipo de corrección global (literalmente) de comparaciones múltiples y responde con las versiones corregidas.pags
¿Sería el comienzo de una era dorada de la ciencia y la razón? No, probablemente no.
Los diversos enfoques de correcciones múltiples están destinados a ayudarlo a volver a una tasa de error nominal que ya ha elegido tolerar para las pruebas individuales. Lo hacen de maneras ligeramente diferentes. Los métodos que controlan la tasa de error familiar , como los procedimientos Bonferroni , Sidak y Holm , dicen "Querías un 5% de posibilidades de cometer un error en una sola prueba, así que nos aseguraremos de que no haya más de un 5 % de probabilidad de cometer errores en todas sus pruebas ". Métodos que controlan la tasa de descubrimiento falsoen su lugar, diga "aparentemente está de acuerdo con estar equivocado hasta el 5% de las veces con una sola prueba, por lo que nos aseguraremos de que no más del 5% de sus 'llamadas' estén mal cuando realice varias pruebas". (¿Ver la diferencia?)
Ahora, suponga que intentó controlar la tasa de error familiar de todas las pruebas de hipótesis que se hayan ejecutado. Básicamente estás diciendo que quieres una probabilidad <5% de rechazar falsamente cualquier hipótesis nula, alguna vez. Esto establece un umbral imposiblemente estricto y la inferencia sería efectivamente inútil, pero hay un problema aún más apremiante: su corrección global significa que está probando "hipótesis compuestas" absolutamente sin sentido como
Con las correcciones de False Discovery Rate, el problema numérico no es tan grave, pero sigue siendo un desastre filosóficamente. En cambio, tiene sentido definir una "familia" de pruebas relacionadas, como una lista de genes candidatos durante un estudio de genómica, o un conjunto de contenedores de frecuencia de tiempo durante un análisis espectral. Adaptar a su familia a una pregunta específica le permite interpretar su error Tipo I de forma directa. Por ejemplo, podría observar un conjunto de valores p corregidos por FWER a partir de sus propios datos genómicos y decir "Hay una probabilidad <5% de que cualquiera de estos genes sean falsos positivos". Esto es mucho mejor que una garantía nebulosa que cubre inferencias hechas por personas que no le importan sobre temas que no le importan.
La otra cara de esto es que la elección apropiada de "familia" es discutible y un poco subjetiva (¿Todos los genes son una familia o puedo considerar las quinasas?), Pero su problema debería informarlo y no creo que nadie ha abogado seriamente por definir a las familias de manera tan extensa.
¿Qué hay de Bayes?
El análisis bayesiano ofrece una alternativa coherente a este problema, si está dispuesto a alejarse un poco del marco de error Frequentista Tipo I / Tipo II. Comenzamos con un previo sin compromiso sobre ... bueno ... todo. Cada vez que aprendemos algo, esa información se combina con la anterior para generar una distribución posterior, que a su vez se convierte en la anterior para la próxima vez que aprendamos algo. Esto le da una regla de actualización coherente y podría comparar diferentes hipótesis sobre cosas específicas calculando el factor Bayes entre dos hipótesis. Probablemente podría factorizar grandes porciones del modelo, lo que ni siquiera lo haría particularmente oneroso.
Hay un meme persistente ... de que los métodos bayesianos no requieren correcciones de comparaciones múltiples. Desafortunadamente, las probabilidades posteriores son solo otra estadística de prueba para los frecuentistas (es decir, las personas que se preocupan por los errores Tipo I / II). No tienen propiedades especiales que controlen este tipo de errores (¿por qué lo harían?) Por lo tanto, estás de vuelta en territorio intratable, pero quizás en un terreno un poco más basado en principios.
El contraargumento bayesiano es que debemos centrarnos en lo que podemos saber ahora y, por lo tanto, estas tasas de error no son tan importantes.
Sobre la reproducción
Parece estar sugiriendo que la corrección incorrecta de comparaciones múltiples es la razón detrás de muchos resultados incorrectos / no reproducibles. Mi sensación es que otros factores tienen más probabilidades de ser un problema. Una obvia es que la presión para publicar lleva a las personas a evitar experimentos que realmente enfatizan su hipótesis (es decir, un mal diseño experimental).
fuente
Creo que deliberadamente pintas una visión pesimista de la ciencia producida por las estadísticas. De hecho, en mi opinión, las estadísticas no son solo un conjunto de herramientas que proporcionan valores p. También hay un estado de rigor, cuidado y alerta sobre algunos posibles efectos involucrados en el procedimiento de inducción científica ... y, en mi opinión, todo lo que usted dice es más o menos cierto, aquí están algunas de mis opiniones sobre por qué tenemos algunas garantías sobre el conocimiento que producimos:
Primero, en general, no se debe llegar a una conclusión solo bajo el argumento de un valor p inferior a un umbral dado.
En segundo lugar, que yo sepa, los argumentos del tipo de "más de la mitad de los resultados científicos publicados son incorrectos" son relevantes e interesantes, pero se calculan sobre la base de valores de p aproximadamente iguales a 0.05 (ver, por ejemplo, Confusión con respecto a los valores de p y la tasa de descubrimiento falso ) . Para valores p más bajos, el efecto es mucho más bajo que el anunciado y, en la práctica, no es raro obtener valores p mucho más bajos que 0.05. Además, muchas veces una hipótesis dada es confirmada por varias sub hipótesis que nuevamente reducen los efectos anunciados.
En tercer lugar, la cuestión de la reproducibilidad es genuina, pero también es un problema que debe resolver el estadístico identificando y tratando los efectos de confusión, los diseños grupales ... y esto se puede hacer muy bien si se hace con experiencia y rigor.
Finalmente, según tengo entendido, un estudio estadístico arquetípico debe basarse más o menos en los siguientes 5 pasos sucesivos:
Esta guía general nos impide realizar expediciones de pesca como una herramienta para sacar conclusiones generales.
Para concluir, diría que su intención de protegernos contra malas conclusiones científicas al sobrepasar los valores de p es un poco ilusoria. Preferiría protegernos de malas conclusiones científicas asegurando y alentando análisis adecuados y advertidos (y me gustaría pensar que esta es una razón por la cual tantas personas calificadas están aquí para ayudar a otros en este sitio).
fuente
Recuerde que las tasas de error (frecuentas) no afectan en absoluto a las probabilidades sobre una hipótesis probada por cualquier prueba individual, sino como métodos para realizar pruebas con tasas de falla garantizadas a largo plazo. La corrección para comparaciones múltiples es otro método para garantizar tasas de falla a largo plazo: uno para construir métodos compuestos que contengan múltiples pruebas para que se mantenga alguna tasa de falla garantizada a largo plazo para el compuesto.
Si realiza un solo experimento con 100 pruebas e informa que 5 de ellas hablaron en contra de la anulación, afirmando que ha observado algún resultado real, nadie quedará impresionado, sabiendo que, en promedio, entre 100 pruebas de verdaderas anulaciones, el 5% lo hará rechazar; el método que ha empleado, "realizar 100 pruebas e informar si alguna de ellas cumple con el umbral del 5%", tiene una tasa de falla superior al 5%. Por lo tanto, puede optar por controlar las comparaciones múltiples e informar que, por ejemplo, 2 de cada 100 pruebas tenían valores de p inferiores a (5/100 == 0.05)%. Ahora emplea un método que nuevamente tiene una tasa de falla garantizada (por el error de informar al menos una prueba significativa aunque ninguna hipótesis sea falsa) del 5%.
fuente