¿Puede un metanálisis de estudios que son todos "no estadísticamente significativos" llevar a una conclusión "significativa"?

Un metanálisis incluye un grupo de estudios, todos los cuales informaron un valor de P mayor que 0.05. ¿Es posible que el metanálisis general informe un valor de P menor que 0.05? ¿Bajo que circunstancias?

(Estoy bastante seguro de que la respuesta es sí, pero me gustaría una referencia o explicación).

statistical-significance meta-analysis combining-p-values Harvey Motulsky
fuente

No sé mucho sobre el metanálisis, pero tenía la impresión de que no implica ninguna prueba de hipótesis, solo una estimación del efecto de la población, en cuyo caso no hay una noción de importancia para hablar.

Kodiólogo

Bueno, un metaanálisis –al final del día– es solo una media ponderada. Y ciertamente puede configurar una prueba de hipótesis para esa media ponderada. Ver, por ejemplo, Borenstein, Michael, et al. "Una introducción básica a los modelos de efectos fijos y de efectos aleatorios para el metanálisis". Research Synthesis Methods 1.2 (2010): 97-111.

boscovich

Las otras respuestas también son buenas, pero un caso simple: dos estudios son significativos en p = 0.9 pero no p = 0.95. La probabilidad de que dos estudios independientes muestren que p> = 0.9 es solo 0.01, por lo que su metanálisis podría mostrar significación en p = 0.99

barrycarter

Tome el límite: ninguna medición puede proporcionar evidencia suficiente a favor / en contra de una hipótesis (no trivial) para tener un valor

pequeño

p

$p$ , pero una colección de mediciones lo suficientemente grande puede hacerlo .

Eric Towers

Los valores p no indican un efecto "estadísticamente significativo" o insignificante. ¿Qué podríamos entender de una conclusión significativa? ¿Es una conclusión metaanalítica?

Subhash C. Davar

Respuestas:

En teoría, sí ...

Los resultados de los estudios individuales pueden ser insignificantes pero vistos juntos, los resultados pueden ser significativos.

En teoría se puede proceder mediante el tratamiento de los resultados $y_i$ de estudio $i$ como cualquier otra variable aleatoria.

Sea alguna variable aleatoria (por ejemplo, la estimación del estudio ). Entonces, si son independientes y , puede estimar consistentemente la media con: $y_i$ $i$ $y_i$ $E[y_i]=\mu$

\hat{μ} = \frac{1}{n} \sum_{i} y_{i}

$\hat{\mu} = \frac{1}{n} \sum_i y_i$

Agregando más supuestos, supongamos que es la varianza de la estimación . Entonces puede estimar eficientemente con ponderación de varianza inversa: $\sigma^2_i$ $y_i$ $\mu$

\hat{μ} = \sum_{i} w_{i} y_{i} w_{i} = \frac{1 / σ_{i}^{2}}{\sum_{j} 1 / σ_{j}^{2}}

$\hat{\mu} = \sum_i w_i y_i \quad \quad w_i = \frac{1 / \sigma^2_i}{\sum_j 1 / \sigma^2_j}$

En cualquiera de estos puede ser estadísticamente significativa en algún nivel de confianza, incluso si las estimaciones individuales no lo son. $\hat{\mu}$

PERO puede haber grandes problemas, cuestiones a tener en cuenta ...

Si entonces el metanálisis puede no converger a (es decir, la media del metanálisis es un estimador inconsistente). $E[y_i] \neq \mu$ $\mu$

Por ejemplo, si hay un sesgo en contra de publicar resultados negativos, ¡este simple metanálisis puede ser terriblemente inconsistente y sesgado! ¡Sería como estimar la probabilidad de que una moneda arroje cara solo observando las tiradas donde no arrojó colas!
y pueden no ser independientes. Por ejemplo, si dos estudios y se basaron en los mismos datos, entonces tratar e como independientes en el metanálisis puede subestimar enormemente los errores estándar y exagerar la significación estadística. Sus estimaciones seguirían siendo consistentes, pero los errores estándar deben explicar razonablemente la correlación cruzada en los estudios. $y_i$ $y_j$ $i$ $j$ $y_i$ $y_j$
Combinar (1) y (2) puede ser especialmente malo.

Por ejemplo, el metanálisis de promediar encuestas en conjunto tiende a ser más preciso que cualquier encuesta individual. Pero promediar encuestas juntas sigue siendo vulnerable a errores correlacionados. Algo que ha surgido en elecciones pasadas es que los jóvenes trabajadores electorales de salida pueden tender a entrevistar a otros jóvenes en lugar de a personas mayores. Si todas las encuestas de salida cometen el mismo error, entonces tiene una mala estimación que puede considerar una buena estimación (las encuestas de salida están correlacionadas porque usan el mismo enfoque para realizar encuestas de salida y este enfoque genera el mismo error).

Indudablemente, las personas más familiarizadas con el metanálisis pueden encontrar mejores ejemplos, problemas más matizados, técnicas de estimación más sofisticadas, etc., pero esto llega a algunas de las teorías más básicas y algunos de los problemas más grandes. Si los diferentes estudios cometen un error aleatorio independiente, entonces el metanálisis puede ser increíblemente poderoso. Si el error es sistemático en todos los estudios (por ejemplo, todos cuentan menos que los votantes mayores, etc.), entonces el promedio de los estudios también estará apagado. Si subestima la correlación de los estudios o la correlación de los errores, efectivamente sobreestima el tamaño de la muestra agregada y subestima los errores estándar.

También hay todo tipo de cuestiones prácticas de definiciones consistentes, etc.

Matthew Gunn
fuente

Estoy criticando un metanálisis por ignorar las dependencias entre los tamaños de los efectos (es decir, muchos tamaños de efectos se basaron en los mismos participantes, pero se trataron como independientes). Los autores dicen que no es gran cosa, de todos modos solo estamos interesados en los moderadores. Estoy haciendo el punto que usted hizo aquí: tratarlos "como independientes en el metanálisis puede subestimar enormemente los errores estándar y exagerar la significación estadística". ¿Existe un estudio de prueba / simulación que muestre por qué este es el caso? Tengo muchas referencias que dicen que los errores correlacionados significan SE subestimado ... pero no sé por qué.

Mark White el

@MarkWhite La idea básica no es más complicada que

. Si para todo

tenemos

para

entonces

Var (\frac{1}{n} \sum_{i} X_{i}) = \frac{1}{n^{2}} (\sum_{i} Var (X_{i}) + \sum_{i \neq j} Cov (X_{i}, X_{j}))

$\operatorname{Var}\left( \frac{1}{n} \sum_i X_i \right) = \frac{1}{n^2} \left( \sum_{i} \operatorname{Var}(X_i) + \sum_{i \neq j} \operatorname{Cov}(X_i, X_j) \right)$

i

$i$

Var (X_{i}) = σ^{2}

$\operatorname{Var}(X_i) = \sigma^2$

Cov (X_{i}, X_{j}) = 0

$\operatorname{Cov}(X_i, X_j) = 0$

i \neq j

$i\neq j$

su error estándar es

Var (\frac{1}{n} \sum_{i} X_{i}) = \frac{σ^{2}}{n}

$\operatorname{Var}\left( \frac{1}{n} \sum_i X_i \right) = \frac{\sigma^2}{n}$

. Por otro lado, si los términos de covarianza son positivos y grandes, el error estándar será mayor.

\frac{σ}{\sqrt{n}}

$\frac{\sigma}{\sqrt{n}}$

Matthew Gunn el

@ MarkWhite No soy un experto en metanálisis, y honestamente no sé cuál es una gran fuente de cómo se debe hacer un metanálisis moderno. Conceptualmente, replicar el análisis en los mismos datos es ciertamente útil (como es estudiar de manera intensiva algunos temas), pero no es lo mismo que reproducir un hallazgo en sujetos nuevos e independientes.

Matthew Gunn el

Ah, entonces, en palabras: la varianza total del tamaño de un efecto proviene de (a) su varianza y (b) su covarianza con otros tamaños de efectos. Si la covarianza es 0, la estimación del error estándar está bien; pero si varía con otros tamaños de efectos, debemos tener en cuenta esa variación, e ignorarla significa que estamos subestimando la variación. Es como si la varianza estuviera compuesta por dos partes A y B, e ignorar las dependencias supone que la parte B es 0 cuando no lo es.

Mark White el

Además, esta parece ser una buena fuente (ver especialmente el recuadro 2): nature.com/neuro/journal/v17/n4/pdf/nn.3648.pdf

Mark White el

Sí. Suponga que tiene valores p de estudios independientes. $N$ $N$

Prueba de Fisher

(EDITAR - en respuesta al comentario útil de @ mdewey a continuación, es relevante distinguir entre diferentes meta pruebas. Expongo el caso de otra meta prueba mencionada por mdewey a continuación)

La estadística clásica de la meta prueba de Fisher (véase Fisher (1932), "Métodos estadísticos para investigadores" ) tiene una distribución nula , como para un RV uniforme .

F = - 2 \sum_{i = 1}^{N} \ln (p_{i})

$F=-2\sum_{i=1}^N\ln(p_i)$

χ_{2 N}^{2}

$\chi^2_{2N}$

- 2 \ln (U) \sim χ_{2}^{2}

$-2\ln(U)\sim\chi^2_2$

U

$U$

Deje denotar el -cuantil de la distribución nula. $\chi^2_{2N}(1-\alpha)$ $(1-\alpha)$

Supongamos que todos los valores de p son iguales a , donde, posiblemente, . Entonces, y cuando $c$ $c>\alpha$ $F=-2N\ln(c)$ $F>\chi^2_{2N}(1-\alpha)$ Por ejemplo, paray, losvaloresindividualessolo necesitan ser menores que

c < \exp (- \frac{χ_{2 N}^{2} (1 - α)}{2 N})

$c < \exp\left(-\frac{\chi^2_{2N}(1-\alpha)}{2N}\right)$

α = 0.05

$\alpha=0.05$

N = 20

$N=20$

p

$p$

> exp(-qchisq(0.95, df = 40)/40)
[1] 0.2480904

Por supuesto, lo que las pruebas metaestadísticas son "solo" el nulo "agregado" de que todos los nulos individuales son verdaderos, lo que debe rechazarse tan pronto como uno de los nulos sea falso. $N$

EDITAR:

Aquí hay una gráfica de los valores p "admisibles" contra , que confirma que crece en , aunque parece nivelarse en . $N$ $c$ $N$ $c\approx0.36$

He encontrado un límite superior para los cuantiles de la distribución $\chi^2$ aquí, sugiriendo quepara que

χ_{2 N}^{2} (1 - α) \leq 2 N + 2 \log (1 / α) + 2 \sqrt{2 N \log (1 / α)},

$\chi^2_{2N}(1-\alpha)\leq 2N+2\log(1/\alpha)+2\sqrt{2N\log(1/\alpha)},$

χ_{2 N}^{2} (1 - α) = O (N)

$\chi^2_{2N}(1-\alpha)=O(N)$

está limitado desde arriba por

como

. Como

, este límite parece razonablemente agudo.

\exp (- \frac{χ_{2 N}^{2} (1 - α)}{2 N})

$\exp\left(-\frac{\chi^2_{2N}(1-\alpha)}{2N}\right)$

\exp (- 1)

$\exp(-1)$

N \to \infty

$N\to\infty$

\exp (- 1) \approx 0.3679

$\exp(-1)\approx0.3679$

Prueba normal inversa (Stouffer et al., 1949)

La estadística de prueba viene dada por

Z = \frac{1}{\sqrt{N}} \sum_{i = 1}^{N} Φ^{- 1} (p_{i})

$Z=\frac{1}{\sqrt{N}}\sum_{i=1}^N\Phi^{-1}(p_i)$

Φ^{- 1}

$\Phi^{-1}$

Z < - 1.645

$Z < -1.645$

α = 0.05

$\alpha=0.05$

p_{i} = c

$p_i=c$

Z = \sqrt{N} Φ^{- 1} (c)

$Z=\sqrt{N}\Phi^{-1}(c)$

c < 0.5

$c<0.5$

Φ^{- 1} (c) < 0

$\Phi^{-1}(c)<0$

Z \to_{p} - \infty

$Z\to_p-\infty$

N \to \infty

$N\to\infty$

c \geq 0.5

$c\geq0.5$

Z

$Z$

N

$N$

N \to \infty

$N\to\infty$

$Z < -1.645$ $c<\Phi(-1.645/\sqrt{N})$ $\Phi(0)=0.5$ $N\to\infty$

Christoph Hanck
fuente

1 / e

$1/e$

Gracias :-). Tampoco esperaba uno antes de ver la trama ...

Christoph Hanck

Curiosamente, el método debido a Fisher es el único de los métodos comúnmente utilizados que tiene esta propiedad. Para la mayoría de los demás, lo que llama F aumenta con N si $ c> 0.5) y disminuye de otra manera. Eso se aplica al método de Stouffer y al método de Edgington, así como a los métodos basados en logits y en la media de p. Los diversos métodos que son casos especiales del método de Wilkinson (mínimo p, máximo p, etc.) tienen diferentes propiedades nuevamente.

mdewey

1 / e

$1/e$

p = 0.9

$p=0.9$

p

$p$

$p$ $\alpha_*$

p_{[1]} \leq p_{[2]} \dots p_{[k]}

$p_{[1]} \le p_{[2]} \dots p_{[k]}$

k

$k$

p_{[1]} < 1 - (1 - α_{*})^{\frac{1}{k}}

$\begin{equation} p_{[1]} < 1 - (1 - \alpha_*)^{\frac{1}{k}} \end{equation}$

$k$ $\alpha_*$ $p_{[1]}$ $\alpha_*$

$p$ $p_{[r]}$ $1\le r\le k$ $r=2$ $p=0.09$

El método de LHC Tippett se describe en un libro Los métodos de estadística. 1931 (1ª ed.) Y el método de Wilkinson está aquí en un artículo "Una consideración estadística en la investigación psicológica"

mdewey
fuente

Gracias. Pero tenga en cuenta que la mayoría de los métodos de metanálisis combinan tamaños de efectos (que representan cualquier diferencia en el tamaño de la muestra) y no combinan los valores de P.

Harvey Motulsky

@HarveyMotulsky estuvo de acuerdo, la combinación de valores p es el último recurso, pero el OP etiquetó su pregunta con la etiqueta de combinación de valores p, así que respondí con ese espíritu

mdewey

Creo que tu respuesta es correcta.

Subhash C. Davar