Benjamini y Hochberg desarrollaron el primer método (y aún más utilizado, creo) para controlar la tasa de descubrimiento falso (FDR).
Quiero comenzar con un montón de valores de P, cada uno para una comparación diferente, y decidir cuáles son lo suficientemente bajos como para ser llamados un "descubrimiento", controlando el FDR a un valor específico (digamos 10%). Una suposición del método habitual es que el conjunto de comparaciones son independientes o tienen "dependencia positiva", pero no puedo entender exactamente qué significa esa frase en el contexto del análisis de un conjunto de valores de P.
multiple-comparisons
non-independent
false-discovery-rate
Harvey Motulsky
fuente
fuente
Respuestas:
Desde su pregunta y, en particular, sus comentarios a otras respuestas, me parece que usted está confundido sobre todo sobre el "cuadro grande" aquí: a saber, lo que hace "dependencia positiva" se refiere en este contexto a todos - a diferencia de lo es el significado técnico de la condición PRDS. Así que hablaré sobre el panorama general.
El panorama
Imagínese que usted está probando nula hipótesis, e imagina que todas ellas son verdaderas. Cada uno de los N valores- p es una variable aleatoria; repetir el experimento una y otra vez produciría un valor p diferente de red cada vez, por lo que se puede hablar de una distribución de valores p (debajo del valor nulo). Es bien sabido que para cualquier prueba, una distribución de valores p bajo nulo debe ser uniforme; entonces, en el caso de la prueba de multiplicación, todas las distribuciones marginales de N de los valores p serán uniformes.N N p p p p N p
Si todos los datos y todas las pruebas son independientes entre sí, entonces la distribución N -dimensional conjunta de los valores p también será uniforme. Esto será cierto, por ejemplo, en una situación clásica de "gominola" cuando se prueban un montón de cosas independientes:N N p
Sin embargo, no tiene por qué ser así. En principio, cualquier par de valores puede correlacionarse, ya sea positiva o negativamente, o depender de una manera más complicada. Considere probar todas las diferencias por pares en las medias entre cuatro grupos; esto es N = 4 ⋅ 3 / 2 = 6 pruebas. Cada uno de los seis valores p solo está distribuido uniformemente. Pero todos están positivamente correlacionados: si (en un intento dado) el grupo A por casualidad tiene una media particularmente baja, entonces la comparación A-B podría producir un valor p bajo (esto sería un falso positivo). Pero en esta situación, es probable que A-vs-C, así como A-vs-D, también produzcan pp N=4⋅3/2=6 p p p -valores. Por lo tanto, los valores son obviamente no independientes y además están positivamente correlacionados entre sí.p
Esto es, informalmente, a lo que se refiere la "dependencia positiva".
Esta parece ser una situación común en pruebas múltiples. Otro ejemplo sería probar las diferencias en varias variables que están correlacionadas entre sí. Obtener una diferencia significativa en uno de ellos aumenta las posibilidades de obtener una diferencia significativa en otro.
Es complicado encontrar un ejemplo natural donde los valores serían "negativamente dependientes". @ user43849 comentó en los comentarios anteriores que para las pruebas unilaterales es fácil:p
Pero hasta ahora no he podido encontrar un ejemplo natural con puntos nulos.
Ahora, la formulación matemática exacta de la "dependencia positiva" que garantiza la validez del procedimiento de Benjamini-Hochberg es bastante complicada. Como se menciona en otras respuestas, la referencia principal es Benjamini & Yekutieli 2001 ; muestran que la propiedad PRDS ("dependencia de regresión positiva en cada uno de un subconjunto") implica el procedimiento Benjamini-Hochberg. Es una forma relajada de la propiedad PRD ("dependencia de regresión positiva"), lo que significa que PRD implica PRDS y, por lo tanto, también implica el procedimiento Benjamini-Hochberg.
Para las definiciones de PRD / PRDS, consulte la respuesta de @ user43849 (+1) y el documento de Benjamini & Yekutieli. Las definiciones son bastante técnicas y no tengo una buena comprensión intuitiva de ellas. De hecho, B&Y menciona también varios otros conceptos relacionados: positividad total multivariante de orden dos (MTP2) y asociación positiva. Según B&Y, están relacionados de la siguiente manera (el diagrama es mío):
MTP2 implica PRD que implica PRDS que garantiza la corrección del procedimiento BH. PRD también implica PA, pero PA PRDS.≠
fuente
Gran pregunta! Retrocedamos y comprendamos qué hizo Bonferroni y por qué era necesario que Benjamini y Hochberg desarrollaran una alternativa.
Se ha vuelto necesario y obligatorio en los últimos años realizar un procedimiento llamado corrección de pruebas múltiples. Esto se debe al creciente número de pruebas que se realizan simultáneamente con ciencias de alto rendimiento, especialmente en genética con la llegada de los estudios de asociación del genoma completo (GWAS). Disculpe mi referencia a la genética, ya que es mi área de trabajo. Si estamos realizando 1.000.000 pruebas simultáneamente en , esperaríamos 50 , 000 falsos positivos. Esto es ridículamente grande y, por lo tanto, debemos controlar el nivel en el que se evalúa la importancia. La corrección de bonferroni, es decir, dividir el umbral de aceptación (0.05) por el número de pruebas independientes ( 0.05 / MP=0.05 50,000 (0.05/M) corrige la tasa de error familiar ( ).FWER
Esto es cierto porque el FWER está relacionada con tasa de error de la prueba en cuanto a ( ) por la ecuación F W E R = 1 - ( 1 - T W E R ) M . Es decir, 100 por ciento menos 1 resta la tasa de error de prueba inteligente elevada a la potencia del número de pruebas independientes realizadas. Suponiendo que ( 1 - 0.05 ) 1 / M = 1 - 0.05TWER FWER=1−(1−TWER)M daTWER≈0.05(1−0.05)1/M=1−0.05M , que es el valor P de aceptación ajustado para M pruebas completamente independientes.TWER≈0.05M
El problema que encontramos ahora, al igual que Benjamini y Hochberg, es que no todas las pruebas son completamente independientes. Por lo tanto, la corrección de Bonferroni, aunque robusta y flexible, es una corrección excesiva . Considere el caso en genética donde dos genes están unidos en un caso llamado desequilibrio de enlace; es decir, cuando un gen tiene una mutación, es más probable que se exprese otro. Obviamente, estas no son pruebas independientes, aunque en la corrección de bonferroni se supone que son . Es aquí donde comenzamos a ver que dividir el valor de P entre M está creando un umbral artificialmente bajo debido a las pruebas independientes asumidas que realmente se influyen entre sí, ergo creando una M que es demasiado grande para nuestra situación real, donde las cosas no están No es independiente.
El procedimiento sugerido por Benjamini y Hochberg, y aumentado por Yekutieli (y muchos otros) es más liberal que Bonferroni, y de hecho, la corrección de Bonferroni solo se usa en los estudios más grandes. Esto se debe a que, en FDR, asumimos cierta interdependencia por parte de las pruebas y, por lo tanto, una M que es demasiado grande y poco realista y elimina los resultados que, en realidad, nos importan. Por lo tanto, en el caso de 1000 pruebas que no son independientes, la verdadera M no sería 1000, sino algo más pequeño debido a las dependencias. Por lo tanto, cuando dividimos 0.05 entre 1000, el umbral es demasiado estricto y evita algunas pruebas que pueden ser de interés.
No estoy seguro de si le importan las mecánicas detrás del control de la dependencia, aunque si lo hace, he vinculado el documento de Yekutieli para su referencia. También adjuntaré algunas otras cosas para su información y curiosidad.
Espero que esto haya ayudado de alguna manera, si he tergiversado algo, por favor hágamelo saber.
~ ~ ~
Referencias
Documento de Yekutieli sobre dependencias positivas: http://www.math.tau.ac.il/~ybenja/MyPapers/benjamini_yekutieli_ANNSTAT2001.pdf
(ver 1.3 - El problema).
Explicación de Bonferroni y otras cosas de interés: revisiones de Nature Genetics. Pruebas de poder estadístico y significado en estudios genéticos a gran escala - Pak C Sham y Shaun M Purcell
(ver recuadro 3.)
http://en.wikipedia.org/wiki/Familywise_error_rate
EDITAR:
En mi respuesta anterior, no definí directamente la dependencia positiva, que era lo que se pedía. En el artículo de Yekutieli, la sección
2.2
se titula Dependencia positiva, y sugiero esto ya que es muy detallado. Sin embargo, creo que podemos hacerlo un poco más sucinto.Interpreting this, as we order ourP -values from lowest to highest, the probability of being part of the null set of test statistics is the lowest at the smallest P value, and increases from there. The FDR sets a boundary on this list of test statistics such that the probability of being part of the null set is 0.05. This is what we are doing when controlling for FDR.
In summation, the property of positive dependency is really the property of positive regression dependency of our whole set of test statistics upon our set of true null test statistics, and we control for an FDR of 0.05; thus as P values go from the bottom up (the step up procedure), they increase in probability of being part of the null set.
My former answer in the comments about the covariance matrix was not incorrect, just a little bit vague. I hope this helps a little bit more.
fuente
I found this pre-print helpful in understanding the meaning. It should be said that I offer this answer not as an expert in the topic, but as an attempt at understanding to be vetted and validated by the community.
Thanks to Amoeba for very helpful observations about the difference between PRD and PRDS, see comments
Positive regression dependency (PRD) means the following: Consider the subset of p-values (or equivalently, test statistics) that correspond to true null hypotheses. Call the vector of these p-valuesp . Let C be a set of vectors with length equal to the length of p and let C have the following property:
(This means thatC is a "decreasing set".)
Assume we know something about the values of some of the elements ofp . Namely, p1...pn<B1...Bn . PRD means that the probability that p is in C never increases as B1...Bn increases.
In plain language, notice that we can formulate an expectation for any elementpi . Since pi corresponds to a true null, it's unconditional expectation should be a uniform distribution from 0 to 1. But if the p-values are not independent, then our conditional expectation for pi given some other elements of p1...pn might not be uniform. PRD means that raising increasing the value p1...pn can never increase the probability that another element pi has lower value.
Benjamini and Yekutieli (2001) show that the Benjamini and Hochberg procedure for controlling FDR requires a condition they term positive regression dependence on a subset (PRDS). PRDS is similar to, and implied by, PRD. However, it is a weaker condition because it only conditions on one ofp1...pn at a time.
To rephrase in plain language: again consider the set of p-values that correspond to true null hypotheses. For any one of these p-values (call itpn ), imagine that we know pn<B , where B is some constant. Then we can formulate a conditional expectation for the remaining p-values, given that pn<B . If the p-values are independent, then our expectation for the remaining p-values is the uniform distribution from 0 to 1. But if the p-values are not independent, then knowing pn<B might change our expectation for the remaining p-values. PRDS says that increasing the value of B must not decrease our expectation for any of the remaining p-values corresponding to the true null hypotheses.
Edited to add:
Here's a putative example of a system that is not PRDS (R code below). The logic is that when samples a and b are very similar, it is more likely that their product will be atypical. I suspect that this effect (and not the non-uniformity of p-values under the null for the
(a*b), (c*d)
comparison) is driving the negative correlation in the p-values, but I cannot be sure. The same effect appears if we do a t-test for the second comparison (rather than a Wilcoxon), but the distribution of p-values still isn't uniform, presumably due to violations of the normality assumption.fuente
In their paper, Benjamini and Yekutieli provide some examples of how positive regression dependence (PRD) is different from just being positively associated. The FDR control procedure relies on a weaker form of PRD which they call PRDS (i.e. PRD on each one from a subset of variables).
Positive dependency was originally proposed in the bivariate setting by Lehmann, but the multivariate version of this concept, known as positive regression dependency is what is relevant to multiple testing.
Here is a relevant excerpt from pg.6
fuente
Positive dependence in this case means that the set of tests are positively correlated. The idea then is that if the variables in the set of tests that you have P-values for are positively correlated then each of the variables are not independent.
If you think back about a Bonferroni p-value correction, for example, you can guarantee that the type 1 error rate is less than 10% over say 100 statistically independent tests by setting your significance threshold to 0.1/100 = 0.001. But, what if each of those 100 tests a correlated in some way? Then you haven't really performed 100 separate tests.
In FDR, the idea is slightly different than the Bonferroni correction. The idea is to guarantee that only a certain percent (say 10%) of the things you declare significant are falsely declared significant. If you have correlated markers (positive dependence) in your dataset, the FDR value is chosen based on the total number of tests you perform (but the actual number of statistically independent tests is smaller). In this way it is more safe to conclude that the false discovery rate is falsely declaring significant 10% or less of the tests in your set of P-values.
Please see this book chapter for a discussion of positive dependence.
fuente