El famoso artículo seminal de Benjamini y Hochberg (1995) describió el procedimiento para aceptar / rechazar hipótesis basadas en el ajuste de los niveles alfa. Este procedimiento tiene una reformulación equivalente directa en términos de valores p ajustados , pero no se discutió en el documento original. Según Gordon Smyth , introdujo los valores p ajustados en 2002 cuando se implementó p.adjusten R. Desafortunadamente, no hay una cita correspondiente, por lo que siempre me ha quedado claro qué se debe citar si se usan valores p ajustados por BH .
Resulta que el procedimiento se describe en Benjamini, Heller, Yekutieli (2009) :
Una forma alternativa de presentar los resultados de este procedimiento es presentar los valores p ajustados . Los valores p ajustados por BH se definen como pBH(i)=min{minj≥i{mp(j)j},1}.
Esta fórmula parece más complicada de lo que realmente es. Dice:
- Primero, ordene todos los valores p de pequeño a grande. Luego, multiplique cada valor de p por el número total de pruebas m divida por su orden de clasificación.
- En segundo lugar, asegúrese de que la secuencia resultante no disminuya: si alguna vez comienza a disminuir, haga que el valor p anterior sea igual al subsiguiente (repetidamente, hasta que la secuencia completa no disminuya).
- Si algún valor p termina siendo mayor que 1, haga que sea igual a 1.
Esta es una reformulación directa del procedimiento original de BH de 1995. Puede existir un documento anterior que introdujo explícitamente el concepto de valores p ajustados por BH , pero no conozco ninguno.
Actualizar. @Zenit descubrió que Yekutieli y Benjamini (1999) describieron lo mismo ya en 1999:

Primero una respuesta al punto. Considere que es el valor p (prueba única) asociado con el valor z 0 del estadístico de prueba. El FDR Benjamini-Hochberg se calcula en dos pasos ( N 0 = # valores ≤ p 0 , N = # valores):p0 p z0 N0 ≤ p0 N
Ahora entendamos esto. La idea subyacente (bayesiana) es que las observaciones provienen de una mezcla de dos distribuciones:
Lo que se observa es la mezcla de esos dos:
Las definiciones (bayesianas) son:
(Basado en la inferencia estadística de la era de la computadora de Efron y Tibshirani )
fuente