He leído este gran artículo de David Colquhoun: Una investigación de la tasa de descubrimiento falso y la mala interpretación de los valores p (2014). En esencia, explica por qué la tasa de descubrimiento falso (FDR) puede ser tan alta como a pesar de que controlamos el error tipo I con .α = 0.05
Sin embargo, todavía estoy confundido sobre lo que sucede si aplico el control FDR en el caso de pruebas múltiples.
Digamos que he realizado una prueba para cada una de las muchas variables, y calculé los valores usando el procedimiento Benjamini-Hochberg. Obtuve una variable que es significativa con . Estoy preguntando cuál es el FDR para este hallazgo.q = 0.049
¿Puedo suponer con seguridad que a largo plazo, si hago ese análisis de forma regular, el FDR no es del , sino inferior al , porque utilicé Benjamini-Hochberg? Eso se siente mal, diría que el valor corresponde al valor en el artículo de Colquhoun y su razonamiento también se aplica aquí, de modo que al usar un umbral de me arriesgo a "hacer el ridículo" (como Colquhoun lo pone) en el de los casos. Sin embargo, traté de explicarlo más formalmente y fallé.5 % q p q 0.05 30 %
Respuestas:
Sucede que, por coincidencia, leí este mismo artículo hace solo un par de semanas. Colquhoun menciona múltiples comparaciones (incluido Benjamini-Hochberg) en la sección 4 cuando plantea el problema, pero descubro que no aclara el problema lo suficiente, por lo que no me sorprende ver su confusión.
El punto importante a tener en cuenta es que Colquhoun está hablando de la situación sin ningún ajuste de comparación múltiple. Se puede entender que el artículo de Colquhoun adopta la perspectiva de un lector: esencialmente pregunta qué tasa de descubrimiento falso (FDR) puede esperar cuando lee literatura científica, y esto significa cuál es el FDR esperado cuando no se realizaron ajustes de comparación múltiples. Se pueden tener en cuenta las comparaciones múltiples cuando se ejecutan múltiples pruebas estadísticas en un estudio, por ejemplo, en un documento. Pero nadie se ajusta a las comparaciones múltiples entre documentos .
Si realmente controla FDR, por ejemplo, siguiendo el procedimiento de Benjamini-Hochberg (BH), entonces será controlado. El problema es que ejecutar el procedimiento BH por separado en cada estudio no garantiza el control general de FDR.
No. Si utiliza el procedimiento BH en todos los documentos, pero de forma independiente en cada uno de sus documentos, entonces esencialmente puede interpretar sus valores ajustados a BH como valores p normales , y lo que Colquhoun dice todavía se aplica.pag pag
Observaciones generales
Creo que el documento es en su mayoría razonable, pero no me gusta que algunas afirmaciones parezcan demasiado audaces. Por ejemplo, la primera oración del resumen es:
Esto está formulado con demasiada fuerza y en realidad puede ser engañoso.
fuente
Benjamini y Hochberg definen la tasa de falsos descubrimientos de la misma manera que yo, como la fracción de las pruebas positivas que son falsos positivos. Entonces, si usa su procedimiento para comparaciones múltiples, controlará FDR correctamente. Sin embargo, vale la pena señalar que hay muchas variantes en el método BH. Los seminarios de Benjamini en Berkeley están en Youtube, y vale la pena verlos:
No estoy seguro de por qué @amoeba dice "Esto está formulado con demasiada fuerza y en realidad puede ser engañoso". Me interesaría saber por qué piensa eso. El argumento más persuasivo proviene de las pruebas t simuladas (sección 6). Eso imita lo que casi todo el mundo hace en la práctica y muestra que si observa P cerca de 0.047 y afirma haber hecho un descubrimiento, se equivocará al menos el 26% del tiempo. ¿Qué puede ir mal?
Por supuesto, no debería describir esto como mínimo. Es lo que obtienes si asumes que hay un 50% de posibilidades de que haya un efecto real. Por supuesto, si asume que la mayoría de sus hipótesis son correctas de antemano, puede obtener un FDR inferior al 26%, pero ¿puede imaginar la hilaridad que saludaría una afirmación de que había hecho un descubrimiento sobre la base de la suposición? que estaba 90% seguro de antemano de que su conclusión sería cierta. 26% es el FDR mínimo dado que no es una base razonable para la inferencia asumir una probabilidad previa mayor que 0.5.
Dado que las corazonadas con frecuencia no se ponen de pie cuando se prueban, bien podría ser que solo haya un 10% de posibilidades de que cualquier hipótesis en particular sea cierta, y en ese caso el FDR sería un 76% desastroso.
Es cierto que todo esto depende de la hipótesis nula de que hay una diferencia cero (el llamado punto nulo). Otras opciones pueden dar resultados diferentes. Pero el punto nulo es lo que casi todos usan en la vida real (aunque es posible que no se den cuenta). Además, el punto nulo me parece algo completamente apropiado para usar. A veces se objeta que las verdaderas diferencias nunca son exactamente cero. Estoy en desacuerdo. Queremos saber si nuestros resultados no son distinguibles del caso en que ambos grupos reciben tratamientos idénticos, por lo que la verdadera diferencia es exactamente cero. Si decidimos que nuestros datos no son compatibles con esa vista, continuaremos estimando el tamaño del efecto. y en ese punto hacemos un juicio separado sobre si el efecto, aunque real, es lo suficientemente grande como para ser importante en la práctica.El blog de Deborah Mayo .
@amoeba Gracias por tu respuesta.
Lo que muestra la discusión en el blog de Mayo es principalmente que Mayo no está de acuerdo conmigo, aunque no ha dejado claro por qué, al menos para mí). Stephen Senn señala correctamente que puede obtener una respuesta diferente si postula una distribución anterior diferente. Eso me parece interesante solo para los bayesianos subjetivos.
Ciertamente es irrelevante para la práctica diaria que siempre asume un punto nulo. Y como expliqué, eso me parece algo perfectamente sensato.
Muchos estadísticos profesionales han llegado a conclusiones muy parecidas a las mías. Prueba Sellke & Berger y Valen Johnson (referencias en mi artículo). No hay nada muy controvertido (o muy original) sobre mis afirmaciones.
Su otro punto, sobre asumir un 0.5 anterior, no me parece una suposición en absoluto. Como expliqué anteriormente, cualquier cosa por encima de 0.5 sería inaceptable en la práctica. Y cualquier cosa por debajo de 0.5 hace que la tasa de falsos descubrimientos sea aún más alta (por ejemplo, 76% si anterior es 0.1). Por lo tanto, es perfectamente razonable decir que 26% es la tasa mínima de descubrimiento falso que puede esperar si observa P = 0.047 en un solo experimento.
He estado pensando más sobre esta pregunta. Mi definición de FDR es la misma que la de Benjamini, la fracción de pruebas positivas que son falsas. Pero se aplica a un problema bastante diferente, la interpretación de una sola prueba. En retrospectiva, podría haber sido mejor si hubiera elegido un término diferente.
En el caso de una sola prueba, B&H deja el valor P sin cambios, por lo que no dice nada sobre la tasa de descubrimiento falso en el sentido de que uso el término.
es, por supuesto, tienes razón. Benjamini & Hochberg, y otras personas que trabajan en comparaciones múltiples, solo apuntan a corregir la tasa de error tipo 1. Entonces terminan con un valor de P "correcto". Está sujeto a los mismos problemas que cualquier otro valor de P. En mi último artículo, cambié el nombre de FDR a False Positive Risk (FPR) en un intento por evitar este malentendido.
También hemos escrito una aplicación web para hacer algunos de los cálculos (después de notar que pocas personas descargan los scripts R que proporcionamos). Está en https://davidcolquhoun.shinyapps.io/3-calcs-final/ Todas las opiniones al respecto son bienvenidas (lea primero la pestaña Notas).
PD: La calculadora web ahora tiene una nueva (permanente, espero) en http://fpr-calc.ucl.ac.uk/ Shiny.io es fácil de usar, pero muy costosa si alguien realmente usa la aplicación :-(
Regresé a esta discusión, ahora que mi segundo artículo sobre el tema está a punto de aparecer en Royal Society Open Science. Está en https://www.biorxiv.org/content/early/2017/08/07/144337
Me doy cuenta de que el error más grande que cometí en el primer artículo fue utilizar el término "tasa de descubrimiento falso (FDR)". En el nuevo artículo, hago más explícito que no estoy diciendo nada sobre el problema de las comparaciones múltiples. Solo trato la cuestión de cómo interpretar el valor P que se observa en una única prueba imparcial.
En la última versión, me refiero a la probabilidad de que el resultado sea el riesgo falso positivo (FPR) en lugar de FDR, con la esperanza de reducir la confusión. También defiendo el enfoque bayesiano inverso: especifique la probabilidad previa que sería necesaria para garantizar un FPR de, digamos, 5%. Si observa P = 0.05, eso viene a 0.87. En otras palabras, tendría que estar casi seguro (87%) de que hubo un efecto real antes de hacer el experimento para lograr un FPR del 5% (que es lo que la mayoría de la gente todavía cree, erróneamente, p = 0.05 significa).
fuente
Una gran parte de la confusión es que, a pesar de sus comentarios aquí en sentido contrario, Colquhoun NO define FDR de la misma manera que lo hace Benjamini-Hochberg. Es desafortunado que Colquhoun haya intentado acuñar un término sin verificar primero para asegurarse de que el término no tuviera una definición bien establecida y diferente. Para empeorar las cosas, Colquhoun definió FDR precisamente en la forma en que el FDR convencional a menudo se ha malinterpretado.
En su respuesta aquí, Colquhoun define FDR como "la fracción de pruebas positivas que son falsas". Eso es similar a lo que Benjamini-Hochberg define como el FDP (proporción de descubrimiento falso, que no debe confundirse con la tasa de descubrimiento falso). Benjamini-Hochberg define FDR como el VALOR ESPERADO del FDP, con una estipulación especial de que el FDP se considera 0 cuando no hay pruebas positivas (una estipulación que hace que el FDR sea igual al FWER cuando todos los valores nulos son verdaderos, y evita valores indefinibles debido a la división por cero).
Para evitar confusiones, sugiero que no se preocupe por los detalles en el documento de Colquhoun y, en su lugar, tome en serio el punto general (que muchos otros también han hecho) de que el nivel alfa no corresponde directamente a la proporción de pruebas significativas que son errores de Tipo I (ya sea que estemos hablando de las pruebas significativas en un solo estudio o en varios estudios combinados). Esa proporción depende no solo del alfa, sino también del poder y de la proporción de hipótesis nulas comprobadas que son verdaderas.
fuente