¿Puede un metanálisis de estudios que son todos "no estadísticamente significativos" llevar a una conclusión "significativa"?

29

Un metanálisis incluye un grupo de estudios, todos los cuales informaron un valor de P mayor que 0.05. ¿Es posible que el metanálisis general informe un valor de P menor que 0.05? ¿Bajo que circunstancias?

(Estoy bastante seguro de que la respuesta es sí, pero me gustaría una referencia o explicación).

Harvey Motulsky
fuente
1
No sé mucho sobre el metanálisis, pero tenía la impresión de que no implica ninguna prueba de hipótesis, solo una estimación del efecto de la población, en cuyo caso no hay una noción de importancia para hablar.
Kodiólogo
1
Bueno, un metaanálisis –al final del día– es solo una media ponderada. Y ciertamente puede configurar una prueba de hipótesis para esa media ponderada. Ver, por ejemplo, Borenstein, Michael, et al. "Una introducción básica a los modelos de efectos fijos y de efectos aleatorios para el metanálisis". Research Synthesis Methods 1.2 (2010): 97-111.
boscovich
1
Las otras respuestas también son buenas, pero un caso simple: dos estudios son significativos en p = 0.9 pero no p = 0.95. La probabilidad de que dos estudios independientes muestren que p> = 0.9 es solo 0.01, por lo que su metanálisis podría mostrar significación en p = 0.99
barrycarter
2
Tome el límite: ninguna medición puede proporcionar evidencia suficiente a favor / en contra de una hipótesis (no trivial) para tener un valor pequeño p, pero una colección de mediciones lo suficientemente grande puede hacerlo .
Eric Towers
Los valores p no indican un efecto "estadísticamente significativo" o insignificante. ¿Qué podríamos entender de una conclusión significativa? ¿Es una conclusión metaanalítica?
Subhash C. Davar

Respuestas:

31

En teoría, sí ...

Los resultados de los estudios individuales pueden ser insignificantes pero vistos juntos, los resultados pueden ser significativos.

En teoría se puede proceder mediante el tratamiento de los resultados yi de estudio i como cualquier otra variable aleatoria.

Sea alguna variable aleatoria (por ejemplo, la estimación del estudio i ). Entonces, si y i son independientes y E [ y i ] = μ , puede estimar consistentemente la media con:yiiyiE[yi]=μ

μ^=1niyi

Agregando más supuestos, supongamos que es la varianza de la estimación y i . Entonces puede estimar eficientemente μ con ponderación de varianza inversa:σi2yiμ

μ^=iwiyiwi=1/σi2j1/σj2

En cualquiera de estos puede ser estadísticamente significativa en algún nivel de confianza, incluso si las estimaciones individuales no lo son.μ^

PERO puede haber grandes problemas, cuestiones a tener en cuenta ...

  1. Si entonces el metanálisis puede no converger a μ (es decir, la media del metanálisis es un estimador inconsistente).E[yi]μμ

    Por ejemplo, si hay un sesgo en contra de publicar resultados negativos, ¡este simple metanálisis puede ser terriblemente inconsistente y sesgado! ¡Sería como estimar la probabilidad de que una moneda arroje cara solo observando las tiradas donde no arrojó colas!

  2. y y j pueden no ser independientes. Por ejemplo, si dos estudios i y j se basaron en los mismos datos, entonces tratar y i e y j como independientes en el metanálisis puede subestimar enormemente los errores estándar y exagerar la significación estadística. Sus estimaciones seguirían siendo consistentes, pero los errores estándar deben explicar razonablemente la correlación cruzada en los estudios.yiyjijyiyj

  3. Combinar (1) y (2) puede ser especialmente malo.

    Por ejemplo, el metanálisis de promediar encuestas en conjunto tiende a ser más preciso que cualquier encuesta individual. Pero promediar encuestas juntas sigue siendo vulnerable a errores correlacionados. Algo que ha surgido en elecciones pasadas es que los jóvenes trabajadores electorales de salida pueden tender a entrevistar a otros jóvenes en lugar de a personas mayores. Si todas las encuestas de salida cometen el mismo error, entonces tiene una mala estimación que puede considerar una buena estimación (las encuestas de salida están correlacionadas porque usan el mismo enfoque para realizar encuestas de salida y este enfoque genera el mismo error).

Indudablemente, las personas más familiarizadas con el metanálisis pueden encontrar mejores ejemplos, problemas más matizados, técnicas de estimación más sofisticadas, etc., pero esto llega a algunas de las teorías más básicas y algunos de los problemas más grandes. Si los diferentes estudios cometen un error aleatorio independiente, entonces el metanálisis puede ser increíblemente poderoso. Si el error es sistemático en todos los estudios (por ejemplo, todos cuentan menos que los votantes mayores, etc.), entonces el promedio de los estudios también estará apagado. Si subestima la correlación de los estudios o la correlación de los errores, efectivamente sobreestima el tamaño de la muestra agregada y subestima los errores estándar.

También hay todo tipo de cuestiones prácticas de definiciones consistentes, etc.

Matthew Gunn
fuente
1
Estoy criticando un metanálisis por ignorar las dependencias entre los tamaños de los efectos (es decir, muchos tamaños de efectos se basaron en los mismos participantes, pero se trataron como independientes). Los autores dicen que no es gran cosa, de todos modos solo estamos interesados ​​en los moderadores. Estoy haciendo el punto que usted hizo aquí: tratarlos "como independientes en el metanálisis puede subestimar enormemente los errores estándar y exagerar la significación estadística". ¿Existe un estudio de prueba / simulación que muestre por qué este es el caso? Tengo muchas referencias que dicen que los errores correlacionados significan SE subestimado ... pero no sé por qué.
Mark White el
1
@MarkWhite La idea básica no es más complicada que . Si para todoitenemosVar(Xi)=σ2yCov(Xi,Xj)=0paraijentoncesVar(1Var(1niXi)=1n2(iVar(Xi)+ijCov(Xi,Xj))iVar(Xi)=σ2Cov(Xi,Xj)=0ij su error estándar esσVar(1niXi)=σ2n . Por otro lado, si los términos de covarianza son positivos y grandes, el error estándar será mayor. σn
Matthew Gunn el
@ MarkWhite No soy un experto en metanálisis, y honestamente no sé cuál es una gran fuente de cómo se debe hacer un metanálisis moderno. Conceptualmente, replicar el análisis en los mismos datos es ciertamente útil (como es estudiar de manera intensiva algunos temas), pero no es lo mismo que reproducir un hallazgo en sujetos nuevos e independientes.
Matthew Gunn el
1
Ah, entonces, en palabras: la varianza total del tamaño de un efecto proviene de (a) su varianza y (b) su covarianza con otros tamaños de efectos. Si la covarianza es 0, la estimación del error estándar está bien; pero si varía con otros tamaños de efectos, debemos tener en cuenta esa variación, e ignorarla significa que estamos subestimando la variación. Es como si la varianza estuviera compuesta por dos partes A y B, e ignorar las dependencias supone que la parte B es 0 cuando no lo es.
Mark White el
1
Además, esta parece ser una buena fuente (ver especialmente el recuadro 2): nature.com/neuro/journal/v17/n4/pdf/nn.3648.pdf
Mark White el
29

Sí. Suponga que tiene valores p de N estudios independientes.NN

Prueba de Fisher

(EDITAR - en respuesta al comentario útil de @ mdewey a continuación, es relevante distinguir entre diferentes meta pruebas. Expongo el caso de otra meta prueba mencionada por mdewey a continuación)

La estadística clásica de la meta prueba de Fisher (véase Fisher (1932), "Métodos estadísticos para investigadores" ) tiene una distribución nula χ 2 2 N , como - 2 ln ( U ) ~ χ 2 2 para un RV uniforme T .

F=2i=1Nln(pi)
χ2N22ln(U)χ22U

Deje denotar el ( 1 - α ) -cuantil de la distribución nula.χ2N2(1α)(1α)

Supongamos que todos los valores de p son iguales a , donde, posiblemente, c > α . Entonces, F = - 2 N ln ( c ) y F > χ 2 2 N ( 1 - α ) cuando c < exp ( - χ 2 2 N ( 1 - α )cc>αF=2Nln(c)F>χ2N2(1α) Por ejemplo, paraα=0.05yN=20, losvalorespindividualessolo necesitan ser menores que

c<exp(χ2N2(1α)2N)
α=0.05N=20p
> exp(-qchisq(0.95, df = 40)/40)
[1] 0.2480904

Por supuesto, lo que las pruebas metaestadísticas son "solo" el nulo "agregado" de que todos los nulos individuales son verdaderos, lo que debe rechazarse tan pronto como uno de los nulos sea falso.N

EDITAR:

Aquí hay una gráfica de los valores p "admisibles" contra , que confirma que c crece en N , aunque parece nivelarse en c 0.36 .NcNc0.36

ingrese la descripción de la imagen aquí

He encontrado un límite superior para los cuantiles de la distribución χ 2 2 N ( 1 - α ) 2 N + 2 log ( 1 / α ) + 2 χ2aquí, sugiriendo queχ 2 2 N (1-α)=O(N)para que exp ( - χ 2 2 N ( 1 - α )

χ2N2(1α)2N+2log(1/α)+22Nlog(1/α),
χ2N2(1α)=O(N)está limitado desde arriba porexp(-1)comoN. Comoexp(-1)0.3679, este límite parece razonablemente agudo.exp(χ2N2(1α)2N)exp(1)Nexp(1)0.3679

Prueba normal inversa (Stouffer et al., 1949)

La estadística de prueba viene dada por

Z=1Ni=1NΦ1(pi)
Φ1Z<1.645α=0.05pi=cZ=NΦ1(c)c<0.5Φ1(c)<0ZpNc0.5ZNN

Z<1.645c<Φ(1.645/N)Φ(0)=0.5N

Christoph Hanck
fuente
2
1/e
Gracias :-). Tampoco esperaba uno antes de ver la trama ...
Christoph Hanck
55
Curiosamente, el método debido a Fisher es el único de los métodos comúnmente utilizados que tiene esta propiedad. Para la mayoría de los demás, lo que llama F aumenta con N si $ c> 0.5) y disminuye de otra manera. Eso se aplica al método de Stouffer y al método de Edgington, así como a los métodos basados ​​en logits y en la media de p. Los diversos métodos que son casos especiales del método de Wilkinson (mínimo p, máximo p, etc.) tienen diferentes propiedades nuevamente.
mdewey
1
1/e
p=0.9p
4

p

pα

p[1]p[2]p[k]
k
p[1]<1(1α)1k

kαp[1]α

pp[r]1rkr=2p=0.09

El método de LHC Tippett se describe en un libro Los métodos de estadística. 1931 (1ª ed.) Y el método de Wilkinson está aquí en un artículo "Una consideración estadística en la investigación psicológica"

mdewey
fuente
1
Gracias. Pero tenga en cuenta que la mayoría de los métodos de metanálisis combinan tamaños de efectos (que representan cualquier diferencia en el tamaño de la muestra) y no combinan los valores de P.
Harvey Motulsky
@HarveyMotulsky estuvo de acuerdo, la combinación de valores p es el último recurso, pero el OP etiquetó su pregunta con la etiqueta de combinación de valores p, así que respondí con ese espíritu
mdewey
Creo que tu respuesta es correcta.
Subhash C. Davar