Combinando valores p de diferentes pruebas estadísticas aplicadas a los mismos datos

8

Aunque el título de la pregunta parece trivial, me gustaría explicar que no es tan trivial en el sentido de que es diferente de la cuestión de aplicar la misma prueba estadística en conjuntos de datos similares para probar contra una hipótesis nula total (metaanálisis, por ejemplo, utilizando el método de Fisher para combinar valores p). Lo que estoy buscando es un método (si existe y si la pregunta es válida en términos estadísticos) que combinaría los valores p de dos pruebas estadísticas diferentes (por ejemplo, una prueba t y una prueba u, incluso si una es paramétrico y el otro no), aplicado para comparar los centros de dos muestreos de dos poblaciones. Hasta ahora he buscado mucho en la web sin una respuesta clara. La mejor respuesta que pude encontrar se basó en los conceptos de teoría de juegos de David Bickel ( http://arxiv.org/pdf/1111.6174.pdf ).

Una solución muy simplista sería un esquema de votación. Supongamos que tengo dos vectores de observacionesA=[a1,a2,...,an] y B=[b1,b2,...,bn]y quiero aplicar varias estadísticas tipo t (prueba t, prueba u, incluso ANOVA de 1 vía) para probar la hipótesis de que los centros (medias, medianas, etc.) de las dos distribuciones inmutables son iguales a la hipótesis de que no lo son, a un nivel de significancia de 0.05. Supongamos que ejecuto 5 pruebas. ¿Sería legítimo decir que existe evidencia suficiente para rechazar la distribución nula si tengo un valor p <0.05 en 3 de 5 pruebas?

¿Sería otra solución usar la ley de probabilidad total o esto es completamente incorrecto? Por ejemplo, supongamos queAes el caso de que la distribución nula sea rechazada. Luego, usando 3 pruebas,T1, T2, T3 (significa que P(T1)=P(T2)=P(T3)=1/3), sería un valor posible para P(A) ser P(A)=P(A|T1)P(T1)+P(A|T2)P(T2)+P(A|T3)P(T3), dónde P(A|Ti) es la probabilidad de que la distribución nula sea rechazada bajo la prueba Ti.

Pido disculpas si la respuesta es obvia o si la pregunta es demasiado estúpida

Panos
fuente
Que hace P(Ti)representar en esa ley de cálculo de probabilidad total?
Glen_b -Reinstale a Monica el
Lamento no poder dar una explicación matemática de lo que está buscando, pero sé que un software que desarrollamos en nuestro laboratorio tiene esta característica implementada: verifique aquí cómo hacerlo: gitools.org/documentation/UserGuide_Combinations .html y aquí la implementación: github.com/gitools/gitools/blob/… . Volveré a comprobar cuando encuentre la fórmula en el documento original.
dmeu
@Glen_b P (Ti) representa la "probabilidad" de usar la prueba estadística Ti. Sé que esto no es exactamente una probabilidad de manera estricta. Es más bien un peso que dice que he usado n pruebas para el mismo conjunto de datos.
Panos
@dmeu Gracias! Sin embargo, creo que su software responde la parte trivial (ver arriba, combinación de múltiples conjuntos de datos usando una sola prueba) y no mi pregunta. Lo siento si este no es el caso.
Panos
@Panos puede que tengas razón. Leí diferente como "dos pruebas independientes (diferentes) del mismo tipo". Perdón por hacerte ilusiones.
dmeu

Respuestas:

5

Está bien usar la corrección de pruebas múltiples como recomienda Corone, pero le costará montañas de poder ya que sus valores p generalmente estarán bien correlacionados, incluso usando la corrección de Hommel.

Hay una solución que requiere computación pero que funcionará mucho mejor en términos de potencia. Sip1,p2,,pn son tus valores p, deja p=min(p1,,pn). Considere que es su nueva estadística de prueba: cuanto más pequeña es, más fuerte defiende contra la hipótesis nula.p

Debe calcular el valor para el valor observado de (llámelo ). Para esto, puede simular, digamos, 100 000 conjuntos de datos bajo las hipótesis nulas, y para cada conjunto de datos, calcular un . Esto le da una distribución empírica de bajo la hipótesis nula. Su valor es la proporción de valores simulados que son .pppobsppp<pobs

¿Cómo simula los conjuntos de datos bajo la hipótesis nula? En su caso, tiene, si supongo que bien, casos y controles, y datos RNS-seq para estimar los niveles de expresión. Para simular un conjunto de datos bajo nulo, es costumbre simplemente permutar aleatoriamente el estado del caso / control.

Elvis
fuente
2
+1 Sí, este es uno de los enfoques que quería decir con "más trabajo". Sin embargo, debe tenerse en cuenta que no es un hecho que tomar el valor p más pequeño sea el mejor enfoque aquí. 99 valores de p cercanos a 0.5 y uno a 0.02 es muy diferente a los valores de 99 p cercanos a 0.02. Una vez que abra la puerta para volver a muestrear el valor nulo, entonces valdría la pena mirar los métodos de "votación", ya que la consistencia entre las pruebas puede ser tan (más) importante que generar un valor p bajo en una sola prueba.
Korone
Sí, tienes razón. Sin embargo, para la mayoría de las pruebas de asociación, creo que tomar el mínimo es una buena idea. Con más trabajo se podría construir una '' prueba robusta de eficiencia máxima '' a partir de la prueba diferente, pero esto realmente requiere trabajar en las pruebas ...
Elvis
1
sí, sin mencionar que las cosas se pondrán realmente peludas / emocionantes / divertidas si comenzamos a preocuparnos por el hecho de que algunas pruebas serán más poderosas que otras, en un mundo ideal en el que más quieres escuchar las pruebas más poderosas ...
Korone
@Elvis Algo como esto es la alternativa más cercana a algo que involucra la ley de probabilidad total (que resultó incorrecta) que tenía en mente. Estaba tratando de pensar en un procedimiento de remuestreo, ¡pero lo formalizaste perfectamente! El poder computacional no será un problema en este momento (¡afortunadamente!). En cuanto a la votación, uno podría incorporar algo como el método de Whitlock para el metanálisis ( ncbi.nlm.nih.gov/pmc/articles/PMC3135688 ) pero dando peso a la prueba estadística. Dicha información podría derivarse de publicaciones relativas (por ejemplo, biomedcentral.com/1471-2105/14/91 ).
Panos
¡Sí! puede tomar cualquier función de los valores , siempre que no disminuya con respecto a cada . p=f(p1,,pn)ppi
Elvis
4

Este tipo de cosas generalmente se cubriría mediante pruebas de hipótesis múltiples, aunque no es una situación típica.

Tiene razón al señalar que esto es diferente del metanálisis, ya que está utilizando los mismos datos para múltiples pruebas, pero esa situación aún está cubierta por las pruebas de hipótesis múltiples. Lo que es un poco extraño aquí es que es casi la misma hipótesis que está probando varias veces, y luego desea la hipótesis nula global que es la intersección de todos ellos; quizás valga la pena preguntarse por qué siente la necesidad de hacer esto , pero podría haber razones legítimas.

Si estaba haciendo un conjunto de pruebas más analíticamente manejable, uno podría ir por la ruta de prueba de Intersección de la Unión, pero no creo que eso lo lleve a ninguna parte, por lo que recomiendo usar una corrección de multiplicidad lista para usar.

Te sugiero que comiences por echar un vistazo a lo que Wikipedia tiene que decir sobre el tema, pero trata de no atascarte demasiado: http://en.wikipedia.org/wiki/Multiple_comparisons

Por lo tanto, debe usar una corrección de multiplicidad y descartar la intersección de la Unión, aproximadamente sus opciones son las siguientes

  • Bonferonni : estrictamente dominado por Holm-Bonferroni, solo interés histórico
  • Holm-Bonferroni : funcionará para usted, pero le costará energía (posiblemente mucho en su caso)
  • Sidak : más potente que BH, pero no puede usar esto porque sus valores p estarán correlacionados
  • Hommel : más potente que BH, y debería estar bien, ya que sus valores p están indudablemente correlacionados positivamente

Su mayor problema es que es muy probable que obtenga valores p muy similares en sus diferentes pruebas. Hommel no debería castigarte demasiado por esto.

Por ejemplo, puede ajustar los valores de p en R usando p.adjust

p = c(0.03, 0.034, 0.041)
p.adjust(p, method = "bonferroni")
p.adjust(p, method = "holm")
p.adjust(p, method = "hommel")

> p.adjust(p, method = "bonferroni")
[1] 0.090 0.102 0.123
> p.adjust(p, method = "holm")
[1] 0.09 0.09 0.09
> p.adjust(p, method = "hommel")
[1] 0.041 0.041 0.041

Todos estos métodos controlan la tasa de error familiar, lo que significa que si prueba cada valor p por turno en función de que pasa su umbral, la probabilidad de 1 o más errores aún se controla en . Esto significa que puede rechazar la hipótesis global si rechaza una o más sub-hipótesis, y el tamaño de su prueba aún se controla en .αα

Como indiqué al principio, este no será el ataque más poderoso que podrías hacer, pero cualquier cosa más sofisticada requerirá mucho más trabajo.


Por qué esto controlaα

La hipótesis nula global es que todas las hipótesis nulas secundarias son verdaderas.

Deje que el resultado de una sola prueba sea tomando el valor 1 si el valor nulo es rechazado, 0 en caso contrario.Xi

Como está indudablemente correlacionado positivamente, podemos usar Hommel para controlar el FWER.Xi

Este control significa que la probabilidad de que una o más pruebas rechacen falsamente se controla enα

Por lo tanto, P((Xi)>0)α

Por lo tanto, si rechaza la hipótesis global si se rechazan una o más hipótesis secundarias, el tamaño de la prueba global esα

Korone
fuente
¡Gracias por su rápida respuesta! La idea principal es combinar varios algoritmos estadísticos que detectan la expresión diferencial de genes utilizando datos de RNA-Seq, con una forma más sofisticada que multiplicar los valores de p que de todos modos no es correcto. Lo que sugiere es similar a lo que encontré en researchgate.net/publication/… Sin embargo, me pregunto si el esquema de votación o la ley de probabilidad total tiene algún significado en este contexto.
Panos
@Panos en ese caso, entonces sí, definitivamente sugeriría algo como esto. La desventaja es que el control es conservador, porque estamos controlando P (1 o más seleccionados son falsos) en lugar de P (todos los seleccionados son falsos), pero dado que es probable que sus algoritmos tengan una correlación bastante positiva, la diferencia probablemente no ser enorme
Korone
Sin mencionar que tampoco se debe casarse demasiado con un umbral de tamaño particular, como a menudo se dice que no hay nada particularmente especial en 0.05 o 0.01.
Korone
@Panos si tuviera que dirigirse a la dirección de calcular las probabilidades correctas para su esquema de votación, entonces finalmente derivaría la prueba de multiplicidad que sugerí, la exacta dependiendo de las suposiciones que haga en el camino.
Korone
1
@Benjamin, aunque también recomendaría leerlo (¡es importante!), No creo que sea apropiado aquí. FDR está controlando la proporción esperada de falsos positivos de varias selecciones. Dado que todas las pruebas de Panos intentan informarle sobre la misma hipótesis global, no tendría mucho sentido controlar la proporción esperada de pruebas falsas, especialmente cuando tiene correlación. No elige entre varias preguntas diferentes, sino que intenta muchas formas de responder la misma pregunta.
Korone