¿Cómo estiman los procedimientos de FDR una tasa de descubrimiento falso sin un modelo de tasas base?

9

¿Alguien puede explicar cómo los procedimientos FDR pueden estimar un FDR sin un modelo / supuesto de la tasa base de verdaderos positivos?

usuario4733
fuente

Respuestas:

5

Creo que es una muy buena pregunta; demasiadas personas usan el procedimiento Benjamini-Hochberg (abreviado BH; posiblemente el procedimiento más popular para controlar el FDR) como una caja negra. De hecho, hay una suposición subyacente que hace en las estadísticas y está muy bien escondida en la definición de los valores p.

Para un valor p bien definido, sostiene que P está distribuido uniformemente ( P U [ 0 , 1 ]PPPU[0,1] ) bajo la hipótesis nula. A veces, incluso puede ser que , es decir, que P es estocásticamente más pequeño que el uniforme, pero esto solo hace que los procedimientos sean más conservadores (y por lo tanto aún válidos). Por lo tanto, al calcular sus valores p, utilizando una prueba t o realmente cualquier prueba de su elección, está proporcionando la información sobre la distribución bajo la hipótesis nula.Pr[Pt]tP

Pero note aquí que seguí hablando de la hipótesis nula; así que lo que mencionó sobre el conocimiento de la tasa base de positivos verdaderos no es necesario, ¡solo necesita conocer la tasa base de falsos positivos! ¿Por qué es esto?

Deje denotar el número de todas las hipótesis rechazadas (positivas) y V los falsos positivos, luego:RV

FDR=E[Vmax(R,1)]E[V]E[R]

Entonces, para estimar el FDR, necesita una forma de estimar , E [ V ] . Ahora veremos las reglas de decisión que rechazan todos los valores de p t . Para aclarar esto en la notación, también escribiré F D R ( t ) ,E[R]E[V]t para las cantidades correspondientes / variables aleatorias de dicho procedimiento.FDR(t),R(t),V(t)

Dado que es solo la expectativa del número total de rechazos, puede estimarlo imparcialmente por el número de rechazos que observa, por lo que E [ R ( t ) ] E[R(t)] , es decir, simplemente contando cuántos de sus valores p sont .E[R(t)]R(t)t

¿Qué pasa con E[V] ? Bien, suponga que de sus m hipótesis totales son hipótesis nulas, luego, por la uniformidad (o sub-uniformidad) de los valores p bajo el valor nulo se obtiene:m0m

E[V(t)]=i nullPr[Pit]m0t

Pero todavía no sabemos , pero sabemos que m 0m , por lo que un límite superior conservador sería E [m0m0m . Por lo tanto, dado que solo necesitamos un límite superior en el número de falsos positivos, ¡es suficiente que sepamos su distribución! Y esto es exactamente lo que hace el procedimiento BH.E[V(t)]mt

Entonces, aunque el comentario de Aarong Zeng de que "el procedimiento BH es una forma de controlar el FDR en el nivel q dado. No se trata de estimar el FDR" no es falso, ¡también es muy engañoso! El procedimiento BH realidad hace estimar el FDR para cada umbral dado . Y luego elige el umbral más grande, de modo que el FDR estimado esté por debajo de α . De hecho, el "valor p ajustado" de la hipótesis i es esencialmente solo una estimación del FDR en el umbral t = p i (hasta la isotonización). Creo que el algoritmo BH estándar oculta un poco este hecho, pero es fácil mostrar la equivalencia de estos dos enfoques (también llamado "teorema de equivalencia"tαit=pi

Como observación final, existen métodos como el procedimiento de Storey que incluso estiman partir de los datos; Esto puede aumentar la potencia un poquito. También, en principio, tiene razón, uno también podría modelar la distribución bajo la alternativa (su verdadera tasa base positiva) para obtener procedimientos más potentes; pero hasta ahora la investigación de pruebas múltiples se ha centrado principalmente en mantener el control del error tipo I en lugar de maximizar el poder. Una dificultad también sería que, en muchos casos, cada una de sus alternativas verdaderas tendrá una distribución alternativa diferente (por ejemplo, una potencia diferente para diferentes hipótesis), mientras que bajo el valor nulo todos los valores p tienen la misma distribución. Esto hace que el modelado de la verdadera tasa positiva sea aún más difícil.m0

aire
fuente
3
+1 Presumiblemente "BH" se refiere a Benjamini-Hochberg . (Siempre es una buena idea deletrear siglas, para que la gente no lo malinterprete). ¡Bienvenido a nuestro sitio!
whuber
1
¡Gracias! También sí, tienes razón, edité mi publicación para reflejar eso.
emitido el
4

Según lo sugerido por @air, el procedimiento Benjamini-Hochberg (BH) garantiza el control de FDR. No tiene como objetivo estimarlo. Por lo tanto, requiere una mera suposición de dependencia débil entre las estadísticas de prueba. [1,2]

Los métodos que apuntan a estimar el FDR [por ejemplo, 3,4,5] requieren algunos supuestos sobre el proceso generativo para estimarlo. Por lo general, suponen que las estadísticas de prueba son independientes. También asumirán algo sobre la distribución nula de las estadísticas de prueba. Las desviaciones de esta distribución nula, junto con el supuesto de independencia, se pueden atribuir a los efectos, y se puede estimar el FDR.

Tenga en cuenta que estas ideas reaparecen en la literatura semi-supervisada de detección de novedades. [6]

[1] Benjamini, Y. e Y. Hochberg. "Control de la tasa de descubrimiento falso: un enfoque práctico y poderoso para las pruebas múltiples". REVISTA-REAL SERIE DE SOCIEDAD ESTADÍSTICA B 57 (1995): 289–289.

[2] Benjamini, Y. y D. Yekutieli. "El control de la tasa de descubrimiento falso en pruebas múltiples bajo dependencia". ANALES DE ESTADÍSTICAS 29, no. 4 (2001): 1165–88.

[3] Piso, JD "Un enfoque directo a las tasas de descubrimiento falso". Revista de la Real Sociedad Estadística Serie B 64, no. 3 (2002): 479–98. doi: 10.1111 / 1467-9868.00346.

[4] Efron, B. "Microarrays, empíricos Bayes y el modelo de dos grupos". Ciencia Estadística 23, no. 1 (2008): 1–22.

[5] Jin, Jiashun y T. Tony Cai. "Estimación del nulo y la proporción de efectos no nulos en comparaciones múltiples a gran escala". Revista de la Asociación Americana de Estadística 102, no. 478 (1 de junio de 2007): 495–506. doi: 10.1198 / 016214507000000167.

[6] Claesen, Marc, Jesse Davis, Frank De Smet y Bart De Moor. "Evaluación de clasificadores binarios utilizando solo datos positivos y no etiquetados". arXiv: 1504.06837 [cs, Stat], 26 de abril de 2015. http://arxiv.org/abs/1504.06837 .

JohnRos
fuente
1
1 aunque mi punto principal de ese párrafo era que el procedimiento BH realidad hace sugerir una manera de estimar el FDR (aunque un poco conservadora) y de hecho lo hace estimar que para llegar al umbral de rechazo final. Su definición algorítmica como un procedimiento de incremento en la referencia [1] lo oculta, pero al final del día, ¡la estimación de FDR es exactamente lo que hace el procedimiento BH! (Efron a menudo hace ese punto, pero también vea la Sección 4. "Una conexión entre los dos enfoques" en su referencia [3].)
transmitido el
2
p0=1
0

Cuando se desconoce el verdadero modelo subyacente, no podemos calcular el FDR, pero podemos estimar el valor de FDR por prueba de permutación . Básicamente, el procedimiento de prueba de permutación es simplemente hacer la prueba de hipótesis varias veces cambiando el vector variable de resultado con sus permutaciones. También se puede hacer en función de las permutaciones de las muestras, pero no es tan común como la anterior.

El documento aquí revisa el procedimiento de permutación estándar para la estimación de FDR, y también propuso un nuevo estimador de FDR. Debería poder abordar su pregunta.

Aaron Zeng
fuente
3
El procedimiento más común como BH no utiliza una prueba de permutación. ¿Qué usa? Además, las pruebas de permutación generalmente proporcionan una distribución por debajo de la nula, ¿no requiere una estimación de FDR modelos tanto de la nula como de la alternativa, así como la proporción relativa subyacente de cada una?
user4733
q