¿Cuáles son las diferencias prácticas entre los procedimientos de tasa de descubrimiento falso de Benjamini y Hochberg (1995) y Benjamini y Yekutieli (2001)?

34

Mi programa de estadísticas implementa los procedimientos de tasa de descubrimiento falso (FDR) de Benjamini & Hochberg (1995) y Benjamini & Yekutieli (2001). He hecho todo lo posible para leer el artículo posterior, pero es matemáticamente denso y no estoy razonablemente seguro de entender la diferencia entre los procedimientos. Puedo ver por el código subyacente en mi programa de estadísticas que son realmente diferentes y que este último incluye una cantidad q a la que he visto referido en relación con FDR, pero que tampoco entiendo.

¿Hay alguna razón para preferir el procedimiento de Benjamini y Hochberg (1995) frente al procedimiento de Benjamini y Yekutieli (2001)? ¿Tienen supuestos diferentes? ¿Cuáles son las diferencias prácticas entre estos enfoques?

Benjamini, Y. y Hochberg, Y. (1995). Control de la tasa de descubrimiento falso: un enfoque práctico y poderoso para múltiples pruebas. Revista de la Royal Statistical Society Series B, 57, 289–300.

Benjamini, Y. y Yekutieli, D. (2001). El control de la tasa de descubrimiento falso en múltiples pruebas bajo dependencia. Annals of Statistics 29, 1165–1188.

El artículo de 1999 al que se hace referencia en los comentarios a continuación: Yekutieli, D. y Benjamini, Y. (1999). Tasa de descubrimiento falso basado en remuestreo que controla múltiples procedimientos de prueba para estadísticas de prueba correlacionadas. Revista de planificación estadística e inferencia, 82 (1), 171-196.

russellpierce
fuente
Pensé que el artículo de 2001 establece las propiedades de FDR (1995) bajo dependencia. Yekutieli y Benjamini (Journal of Statistical Planning and Inference, 1999) establecen un procedimiento FDR diferente. ¿Alguna posibilidad de que sea la que estás buscando?
julieth
@julieth: Ese era mi sentido del documento de 2001 al leer el resumen solo, pero las fórmulas en el documento (por ejemplo, 27-30) parecen involucrar una cantidad denominada q. Por otra parte, también lo hace este artículo de 1999 que usted cita. Sin embargo, tengo la sensación de que el documento de 1999 implementa un enfoque de remuestreo que claramente (al mirar el código) no es lo que está haciendo mi programa de estadísticas (R; p.ajust) ... pero puedo estar equivocado.
russellpierce
1
Al final del artículo de 2001, se cita el artículo de 1999 y dicen: "Finalmente, recuerden el procedimiento basado en remuestreo de Yekutieli y Benjamini (1999), que intenta hacer frente al problema anterior y al mismo tiempo utilizar la información sobre la dependencia estructura derivada de la muestra. El procedimiento basado en remuestreo es más poderoso, a expensas de una mayor complejidad y solo un control aproximado de FDR ". ... así que creo que el documento de 2001 proporcionó una solución computacional de forma cerrada y eso es lo que está implementando mi programa de estadísticas.
russellpierce
1
Ok, entonces estás usando p.adjust. El artículo 99 es completamente diferente, como notó. Siempre vi la opción BY en p.adjust y no presté atención. Ese documento de 2001 generalmente se cita en relación con la prueba de FDR y la "dependencia de regresión positiva". Nunca lo vi citando un estimador diferente, pero tal vez está ahí. Parece que necesito releerlo.
julieth

Respuestas:

21

Benjamini y Hochberg (1995) introdujeron la tasa de descubrimiento falso. Benjamini y Yekutieli (2001) demostraron que el estimador es válido bajo algunas formas de dependencia. La dependencia puede surgir de la siguiente manera. Considere la variable continua utilizada en una prueba t y otra variable correlacionada con ella; por ejemplo, probar si el IMC difiere en dos grupos y si la circunferencia de la cintura difiere en estos dos grupos. Debido a que estas variables están correlacionadas, los valores p resultantes también estarán correlacionados. Yekutieli y Benjamini (1999) desarrollaron otro procedimiento de control de FDR, que puede usarse bajo dependencia general mediante el muestreo de la distribución nula. Debido a que la comparación es con respecto a la distribución de permutación nula, a medida que aumenta el número total de positivos verdaderos, el método se vuelve más conservador. Resulta que BH 1995 también es conservador a medida que aumenta el número de verdaderos positivos. Para mejorar esto, Benjamini y Hochberg (2000) introdujeron el procedimiento adaptativo de FDR. Esto requería una estimación de un parámetro, la proporción nula, que también se usa en el estimador pFDR de Storey. Storey hace comparaciones y argumenta que su método es más poderoso y enfatiza la naturaleza conservadora del procedimiento de 1995. El piso también tiene resultados y simulaciones bajo dependencia.

Todas las pruebas anteriores son válidas bajo independencia. La pregunta es con qué tipo de desviación de la independencia pueden lidiar estas estimaciones.

Mi opinión actual es que si no se esperan demasiados positivos verdaderos, el procedimiento BY (1999) es bueno porque incorpora características de distribución y dependencia. Sin embargo, no estoy al tanto de una implementación. El método de Storey fue diseñado para muchos positivos verdaderos con cierta dependencia. BH 1995 ofrece una alternativa a la tasa de error familiar y aún es conservadora.

Benjamini, Y y Y Hochberg. Sobre el control adaptativo de la tasa de descubrimiento falso en pruebas múltiples con estadísticas independientes. Revista de estadísticas educativas y conductuales, 2000.

julio
fuente
¡Muchas gracias! ¿Podría revisar su pregunta para aclarar los siguientes puntos / cuestiones: "remuestreo de la distribución nula" es el documento de 1999? ¿Podría proporcionar la cita para el documento de 2000? Parecía familiarizado con p.adjust, ¿realmente está implementando el procedimiento BY? ¿Se debe usar BH cuando las pruebas de hipótesis no son dependientes? ¿Qué hace que las pruebas de hipótesis se consideren dependientes? - Avíseme si alguna de estas preguntas va más allá del alcance actual y requiere una nueva pregunta.
russellpierce
p.adjust tiene opciones para ambos (BH y BY). Sin embargo, pensé que eran lo mismo, así que me perdí algo.
julieth
Y el código subyacente también es diferente (verifiqué) para que produzcan números diferentes.
russellpierce
Entonces, ¿qué procedimiento cree usted que p.adjust está realizando con el argumento BY? No creo que sea el procedimiento de 1999. El código subyacente es pmin (1, cummin (q * n / i * p [o])) [ro]. BH es pmin (1, cummin (n / i * p [o])) [ro]. Por lo tanto, solo difieren en q, que es la suma (1 / (1: n)) donde n = el número de valores. oy ro solo sirven para poner los valores de p decreciente numérico para la función y luego escupen atrás a cabo en el mismo orden que el usuario las inputed en.
russellpierce
1
Entonces, dado que no llegan nuevas respuestas, aceptaré esta respuesta y resumiré mi comprensión. p.adjust puede ser erróneo para BY. Lo que se realiza no es remuestreo. BH, 2000 introdujo el procedimiento FDR adaptativo, y esto implica la estimación de la proporción nula, que puede ser la q que aparece en el código BY. Mientras tanto, parece que lo más sensato es citar p.adjust directamente, ya que eso refleja el procedimiento real que se usa cuando se usa la opción "BY" y solo tener en cuenta que "BY" en realidad puede estar implementando Benjamini & Hochberg, 2000.
russellpierce
5

p.adjust no es erróneo para BY. La referencia es al Teorema 1.3 (prueba en la Sección 5 en p.1182) en el documento:

Benjamini, Y. y Yekutieli, D. (2001). El control de la tasa de descubrimiento falso en múltiples pruebas bajo dependencia. Annals of Statistics 29, 1165–1188.

Como este documento discute varios ajustes diferentes, la referencia en la página de ayuda (al momento de escribir) para p.adjust () es algo oscura. El método está garantizado para controlar FDR, a la velocidad establecida, bajo la estructura de dependencia más general. Hay comentarios informativos en las diapositivas de Christopher Genovese en: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf Observe el comentario en la diapositiva 37, que hace referencia al método del Teorema 1.3 en el documento BY 2001 [método = 'BY' con p.adjust ()] que: "Desafortunadamente, esto es típicamente muy conservador, a veces incluso más que Bonferroni".

Ejemplo numérico: method='BY' vsmethod='BH'

Lo siguiente compara method = 'BY' con method = 'BH', usando la función p.adjust () de R, para los valores p de la columna 2 de la Tabla 2 en el artículo de Benjamini y Hochberg (2000):

> p <-    c(0.85628,0.60282,0.44008,0.41998,0.3864,0.3689,0.31162,0.23522,0.20964,
0.19388,0.15872,0.14374,0.10026,0.08226,0.07912,0.0659,0.05802,0.05572,
0.0549,0.04678,0.0465,0.04104,0.02036,0.00964,0.00904,0.00748,0.00404,
0.00282,0.002,0.0018,2e-05,2e-05,2e-05,0)
> pmat <- rbind(p,p.adjust(p, method='BH'),p.adjust(p, method='BY'))
> rownames(pmat)<-c("pval","adj='BH","adj='BY'")
> round(pmat,4)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0

yo=1metro(1/ /yo)metro

> mult <- sapply(c(11, 30, 34, 226, 1674, 12365), function(i)sum(1/(1:i)))

setNames (mult, paste (c ('m =', rep ('', 5)), c (11, 30, 34, 226, 1674, 12365))) m = 11 30 34 226 1674 12365 3.020 3.995 4.118 6.000 8.000 10.000

metro

John Maindonald
fuente