El famoso artículo seminal de Benjamini y Hochberg (1995) describió el procedimiento para aceptar / rechazar hipótesis basadas en el ajuste de los niveles alfa. Este procedimiento tiene una reformulación equivalente directa en términos de valores p ajustados , pero no se discutió en el documento original. Según Gordon Smyth , introdujo los valores p ajustados en 2002 cuando se implementó p.adjust
en R. Desafortunadamente, no hay una cita correspondiente, por lo que siempre me ha quedado claro qué se debe citar si se usan valores p ajustados por BH .
Resulta que el procedimiento se describe en Benjamini, Heller, Yekutieli (2009) :
Una forma alternativa de presentar los resultados de este procedimiento es presentar los valores p ajustados . Los valores p ajustados por BH se definen como pBH(i)=min{minj≥i{mp(j)j},1}.
Esta fórmula parece más complicada de lo que realmente es. Dice:
- Primero, ordene todos los valores p de pequeño a grande. Luego, multiplique cada valor de p por el número total de pruebas m divida por su orden de clasificación.
- En segundo lugar, asegúrese de que la secuencia resultante no disminuya: si alguna vez comienza a disminuir, haga que el valor p anterior sea igual al subsiguiente (repetidamente, hasta que la secuencia completa no disminuya).
- Si algún valor p termina siendo mayor que 1, haga que sea igual a 1.
Esta es una reformulación directa del procedimiento original de BH de 1995. Puede existir un documento anterior que introdujo explícitamente el concepto de valores p ajustados por BH , pero no conozco ninguno.
Actualizar. @Zenit descubrió que Yekutieli y Benjamini (1999) describieron lo mismo ya en 1999:
Primero una respuesta al punto. Considere que es el valor p (prueba única) asociado con el valor z 0 del estadístico de prueba. El FDR Benjamini-Hochberg se calcula en dos pasos ( N 0 = # valores ≤ p 0 , N = # valores):p0 p z0 N0 ≤ p0 N
Ahora entendamos esto. La idea subyacente (bayesiana) es que las observaciones provienen de una mezcla de dos distribuciones:
Lo que se observa es la mezcla de esos dos:
Las definiciones (bayesianas) son:
(Basado en la inferencia estadística de la era de la computadora de Efron y Tibshirani )
fuente