Aunque el título de la pregunta parece trivial, me gustaría explicar que no es tan trivial en el sentido de que es diferente de la cuestión de aplicar la misma prueba estadística en conjuntos de datos similares para probar contra una hipótesis nula total (metaanálisis, por ejemplo, utilizando el método de Fisher para combinar valores p). Lo que estoy buscando es un método (si existe y si la pregunta es válida en términos estadísticos) que combinaría los valores p de dos pruebas estadísticas diferentes (por ejemplo, una prueba t y una prueba u, incluso si una es paramétrico y el otro no), aplicado para comparar los centros de dos muestreos de dos poblaciones. Hasta ahora he buscado mucho en la web sin una respuesta clara. La mejor respuesta que pude encontrar se basó en los conceptos de teoría de juegos de David Bickel ( http://arxiv.org/pdf/1111.6174.pdf ).
Una solución muy simplista sería un esquema de votación. Supongamos que tengo dos vectores de observaciones y y quiero aplicar varias estadísticas tipo t (prueba t, prueba u, incluso ANOVA de 1 vía) para probar la hipótesis de que los centros (medias, medianas, etc.) de las dos distribuciones inmutables son iguales a la hipótesis de que no lo son, a un nivel de significancia de 0.05. Supongamos que ejecuto 5 pruebas. ¿Sería legítimo decir que existe evidencia suficiente para rechazar la distribución nula si tengo un valor p <0.05 en 3 de 5 pruebas?
¿Sería otra solución usar la ley de probabilidad total o esto es completamente incorrecto? Por ejemplo, supongamos quees el caso de que la distribución nula sea rechazada. Luego, usando 3 pruebas,, , (significa que ), sería un valor posible para ser , dónde es la probabilidad de que la distribución nula sea rechazada bajo la prueba .
Pido disculpas si la respuesta es obvia o si la pregunta es demasiado estúpida
Respuestas:
Está bien usar la corrección de pruebas múltiples como recomienda Corone, pero le costará montañas de poder ya que sus valores p generalmente estarán bien correlacionados, incluso usando la corrección de Hommel.
Hay una solución que requiere computación pero que funcionará mucho mejor en términos de potencia. Sip1,p2,…,pn son tus valores p, deja p∗=min(p1,…,pn) . Considere que es su nueva estadística de prueba: cuanto más pequeña es, más fuerte defiende contra la hipótesis nula.p∗
Debe calcular el valor para el valor observado de (llámelo ). Para esto, puede simular, digamos, 100 000 conjuntos de datos bajo las hipótesis nulas, y para cada conjunto de datos, calcular un . Esto le da una distribución empírica de bajo la hipótesis nula. Su valor es la proporción de valores simulados que son .p p∗ p∗obs p∗ p∗ p <p∗obs
¿Cómo simula los conjuntos de datos bajo la hipótesis nula? En su caso, tiene, si supongo que bien, casos y controles, y datos RNS-seq para estimar los niveles de expresión. Para simular un conjunto de datos bajo nulo, es costumbre simplemente permutar aleatoriamente el estado del caso / control.
fuente
Este tipo de cosas generalmente se cubriría mediante pruebas de hipótesis múltiples, aunque no es una situación típica.
Tiene razón al señalar que esto es diferente del metanálisis, ya que está utilizando los mismos datos para múltiples pruebas, pero esa situación aún está cubierta por las pruebas de hipótesis múltiples. Lo que es un poco extraño aquí es que es casi la misma hipótesis que está probando varias veces, y luego desea la hipótesis nula global que es la intersección de todos ellos; quizás valga la pena preguntarse por qué siente la necesidad de hacer esto , pero podría haber razones legítimas.
Si estaba haciendo un conjunto de pruebas más analíticamente manejable, uno podría ir por la ruta de prueba de Intersección de la Unión, pero no creo que eso lo lleve a ninguna parte, por lo que recomiendo usar una corrección de multiplicidad lista para usar.
Te sugiero que comiences por echar un vistazo a lo que Wikipedia tiene que decir sobre el tema, pero trata de no atascarte demasiado: http://en.wikipedia.org/wiki/Multiple_comparisons
Por lo tanto, debe usar una corrección de multiplicidad y descartar la intersección de la Unión, aproximadamente sus opciones son las siguientes
Su mayor problema es que es muy probable que obtenga valores p muy similares en sus diferentes pruebas. Hommel no debería castigarte demasiado por esto.
Por ejemplo, puede ajustar los valores de p en R usando
p.adjust
Todos estos métodos controlan la tasa de error familiar, lo que significa que si prueba cada valor p por turno en función de que pasa su umbral, la probabilidad de 1 o más errores aún se controla en . Esto significa que puede rechazar la hipótesis global si rechaza una o más sub-hipótesis, y el tamaño de su prueba aún se controla en .α α
Como indiqué al principio, este no será el ataque más poderoso que podrías hacer, pero cualquier cosa más sofisticada requerirá mucho más trabajo.
Por qué esto controlaα
La hipótesis nula global es que todas las hipótesis nulas secundarias son verdaderas.
Deje que el resultado de una sola prueba sea tomando el valor 1 si el valor nulo es rechazado, 0 en caso contrario.Xi
Como está indudablemente correlacionado positivamente, podemos usar Hommel para controlar el FWER.Xi
Este control significa que la probabilidad de que una o más pruebas rechacen falsamente se controla enα
Por lo tanto,P(∑(Xi)>0)≤α
Por lo tanto, si rechaza la hipótesis global si se rechazan una o más hipótesis secundarias, el tamaño de la prueba global es≤α
fuente