¿Por qué funciona el método de Stouffer?

9

Parece una pregunta bastante sencilla, pero cuando realmente lo pienso, el método de Stouffer no tiene sentido para mí. Esta es la razón por:

Suponga una hipótesis de dos colas. Primero calculaszi desde p-valores. Así que tomemos un ejemplo bastante simple. Tomemos dosp-valores de 0.05. Esto significa quez1 y z2 son ambos 1.96. Según el método de Stouffer,z1 y z2 se combinan de manera que:

Z=i=1kZik=1.96+1.962=2.77

Esta z-score luego se convierte en un p-valor una vez más, lo que resulta en un p-valor de 0.005, mientras que el p-valores de cada zi individualmente se trata 0.05.

En este sentido, parece que la prueba de Stouffer cambia artificialmente la resultante p-valor a un valor diferente al p-valores de cada zi, lo que para mí no tiene sentido.

¿Estoy malinterpretando esta prueba o alguien puede ayudarme a entender cómo / por qué funciona?

será
fuente
55
(+1) Pero tenga en cuenta que el método de Stouffer en este formulario no es apropiado para alternativas de dos colas. El problema es que pasa por alto la posibilidad de que un estudio haya encontrado un efecto en una dirección y el otro, un efecto en la dirección opuesta. Uno tiene que verificar que esto no haya ocurrido. Para llegar a su pregunta: ¿en qué sentido es esto "artificial"? Tenga en cuenta que el propósito es combinar evidencia para apoyar la toma de decisiones. ¿No tiene sentido que dos resultados significativos deban constituir un mayor apoyo para una decisión que uno solo?
whuber
Cuando escribí que parece "artificial", quise decir que en el caso de que haya dos muestras (N = 2), siempre habrá una inflación en el puntaje Z, lo que dará como resultado valores p consistentemente más bajos de lo esperado puntaje zzi) Si bien tiene sentido que dos resultados significativos den como resultado un mayor respaldo para una decisión que uno solo, no tiene sentido que se implementen dos valores p en el método de Stouffer y el resultado sea completamente diferente de cualquiera de los dos p- valor.
será el
2
@will, no puedo entender la última oración de tu primer (largo) comentario aquí. Sí, tiene sentido que dos resultados significativos den un soporte más fuerte cuando se combinan. Lo que significa que el valor p combinado puede ser más bajo que cualquiera de los dos. ¿Entonces, cuál es el problema?
ameba
2
Estaba pensando que una forma de desarrollar su intuición sería revertir este procedimiento: tome un solo estudio y divídalo en dos partes aleatorias, luego analice cada parte por separado. Como un ejemplo muy simple, considere una encuesta postelectoral en la que se encuestó a 1000 personas y 535 dijeron que votaron por el titular y 465 por su oponente. Una división aleatoria podría ir 265-235 en una mitad y 270-230 en la otra mitad. ¿Cuáles son los valores p para la prueba de igualdad de proporciones en las dos mitades y cuál es el valor p en general? (En R, calcular usando prop.test(535,1000), etc.)
whuber
2
¡Parece confundir la estimación muestral de la proporción con el valor p de la prueba! El valor p general es 0.03 mientras que los valores p de las dos mitades son 0.08 y 0.19.
whuber

Respuestas:

8

El mayor tamaño general de la muestra conduce a una mayor potencia y, por lo tanto, a un valor p más pequeño (al menos si los datos respaldan la hipótesis de trabajo).

Este suele ser el punto principal de cualquier metanálisis: múltiples evidencias débiles que respaldan una hipótesis se combinan con una fuerte evidencia de ello.

Michael M
fuente
Dado que el término estadístico "poder" en este contexto tiene un significado muy diferente al valor p, me preocupa que esta explicación pueda causar cierta confusión entre ellos.
whuber
Entonces, ¿esto significa que en el caso de que el tamaño de la muestra sea 2, la potencia del método de Stouffer siempre disminuirá y el valor p siempre será menor? ¿Cómo puede obtener una respuesta más precisa cuando el tamaño de la muestra es dos?
será el
El tamaño de la "meta muestra" es dos, es decir, hubo dos experimentos que arrojaron ambos p=0.05. El tamaño de la muestra combinadaN es N=N1+N2, por lo general, mucho más grande que 2. Dado que este metanálisis solo tiene en cuenta los valores de p, la información disponible es mucho menor que la de los datos sin procesar de N1+N2eventos.
quazgar
2

Para simplificar, piense en términos de una prueba de medios. Suponga que bajo H0 el efecto del tratamiento es cero, de modo que cada valor z es una estimación ponderada del efecto del tratamiento θi. El método de Stouffer proporciona un promedio no ponderado de estos efectos del tratamiento, por lo que dará una estimación más precisa (y, por lo tanto, un valor p más pequeño) que cada valor z separado. Esta estimación no ponderada del efecto del tratamiento está sesgada, pero es posible un método de Stouffer ponderado, y si los pesos son proporcionales a 1 / error estándar (θi) la estimación del efecto del tratamiento es imparcial. Sin embargo, esto solo tiene sentido si los valores z separados son medidas de la misma cantidad. Una ventaja de los métodos de Stouffer y Fisher es que también se pueden aplicar a metanálisis donde se han elegido diferentes variables de respuesta, para que puedan '

Paul Silcocks
fuente
0

Piénselo desde el punto de vista del metanálisis: si no hubiera ningún efecto (H0), p los valores se distribuirían por igual entre 0 y 1. Entonces, si obtiene p<0.1 en más del 10% de todos los análisis individuales (potencialmente muchos de ellos), esto puede llegar a la conclusión de que H0 Probablemente debería ser rechazado.

Ni siquiera veo un problema para las pruebas de dos colas: en este caso, el resultado debe interpretarse como: Es poco probable que la media real sea 0 (en el ejemplo de un gaussiano alrededor de 0), pero no puedo decirlo (de cualquiera el anterior o el combinado p valor) si la media verdadera está por encima o por debajo de ella.

quazgar
fuente
-2

Creo que estaría bien combinar resultados de 2 colas porque eso significa que el resultado sería cero (si hay evidencia de que el tratamiento mejora [la cola derecha] de la enfermedad de un paciente pero también evidencia de que empeora [izquierda -tail], el resultado neto no es evidencia hacia una hipótesis particular ya que se cancelan y se necesitan más observaciones.

gah
fuente
1
No creo que esto aborde la pregunta. Además, el comentario de whuber indica que este método en particular no funciona para las pruebas de 2 colas.
mkt - Restablecer Monica