Mi programa de estadísticas implementa los procedimientos de tasa de descubrimiento falso (FDR) de Benjamini & Hochberg (1995) y Benjamini & Yekutieli (2001). He hecho todo lo posible para leer el artículo posterior, pero es matemáticamente denso y no estoy razonablemente seguro de entender la diferencia entre los procedimientos. Puedo ver por el código subyacente en mi programa de estadísticas que son realmente diferentes y que este último incluye una cantidad q a la que he visto referido en relación con FDR, pero que tampoco entiendo.
¿Hay alguna razón para preferir el procedimiento de Benjamini y Hochberg (1995) frente al procedimiento de Benjamini y Yekutieli (2001)? ¿Tienen supuestos diferentes? ¿Cuáles son las diferencias prácticas entre estos enfoques?
Benjamini, Y. y Hochberg, Y. (1995). Control de la tasa de descubrimiento falso: un enfoque práctico y poderoso para múltiples pruebas. Revista de la Royal Statistical Society Series B, 57, 289–300.
Benjamini, Y. y Yekutieli, D. (2001). El control de la tasa de descubrimiento falso en múltiples pruebas bajo dependencia. Annals of Statistics 29, 1165–1188.
El artículo de 1999 al que se hace referencia en los comentarios a continuación: Yekutieli, D. y Benjamini, Y. (1999). Tasa de descubrimiento falso basado en remuestreo que controla múltiples procedimientos de prueba para estadísticas de prueba correlacionadas. Revista de planificación estadística e inferencia, 82 (1), 171-196.
fuente
Respuestas:
Benjamini y Hochberg (1995) introdujeron la tasa de descubrimiento falso. Benjamini y Yekutieli (2001) demostraron que el estimador es válido bajo algunas formas de dependencia. La dependencia puede surgir de la siguiente manera. Considere la variable continua utilizada en una prueba t y otra variable correlacionada con ella; por ejemplo, probar si el IMC difiere en dos grupos y si la circunferencia de la cintura difiere en estos dos grupos. Debido a que estas variables están correlacionadas, los valores p resultantes también estarán correlacionados. Yekutieli y Benjamini (1999) desarrollaron otro procedimiento de control de FDR, que puede usarse bajo dependencia general mediante el muestreo de la distribución nula. Debido a que la comparación es con respecto a la distribución de permutación nula, a medida que aumenta el número total de positivos verdaderos, el método se vuelve más conservador. Resulta que BH 1995 también es conservador a medida que aumenta el número de verdaderos positivos. Para mejorar esto, Benjamini y Hochberg (2000) introdujeron el procedimiento adaptativo de FDR. Esto requería una estimación de un parámetro, la proporción nula, que también se usa en el estimador pFDR de Storey. Storey hace comparaciones y argumenta que su método es más poderoso y enfatiza la naturaleza conservadora del procedimiento de 1995. El piso también tiene resultados y simulaciones bajo dependencia.
Todas las pruebas anteriores son válidas bajo independencia. La pregunta es con qué tipo de desviación de la independencia pueden lidiar estas estimaciones.
Mi opinión actual es que si no se esperan demasiados positivos verdaderos, el procedimiento BY (1999) es bueno porque incorpora características de distribución y dependencia. Sin embargo, no estoy al tanto de una implementación. El método de Storey fue diseñado para muchos positivos verdaderos con cierta dependencia. BH 1995 ofrece una alternativa a la tasa de error familiar y aún es conservadora.
Benjamini, Y y Y Hochberg. Sobre el control adaptativo de la tasa de descubrimiento falso en pruebas múltiples con estadísticas independientes. Revista de estadísticas educativas y conductuales, 2000.
fuente
p.adjust no es erróneo para BY. La referencia es al Teorema 1.3 (prueba en la Sección 5 en p.1182) en el documento:
Benjamini, Y. y Yekutieli, D. (2001). El control de la tasa de descubrimiento falso en múltiples pruebas bajo dependencia. Annals of Statistics 29, 1165–1188.
Como este documento discute varios ajustes diferentes, la referencia en la página de ayuda (al momento de escribir) para p.adjust () es algo oscura. El método está garantizado para controlar FDR, a la velocidad establecida, bajo la estructura de dependencia más general. Hay comentarios informativos en las diapositivas de Christopher Genovese en: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf Observe el comentario en la diapositiva 37, que hace referencia al método del Teorema 1.3 en el documento BY 2001 [método = 'BY' con p.adjust ()] que: "Desafortunadamente, esto es típicamente muy conservador, a veces incluso más que Bonferroni".
Ejemplo numérico:
method='BY'
vsmethod='BH'
Lo siguiente compara method = 'BY' con method = 'BH', usando la función p.adjust () de R, para los valores p de la columna 2 de la Tabla 2 en el artículo de Benjamini y Hochberg (2000):
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0
fuente