Mantengamos una situación ideal con muestreo aleatorio, poblaciones gaussianas, varianzas iguales, sin pirateo de P, etc.
Paso 1. Realiza un experimento, por ejemplo, comparando dos medias de muestra, y calcula un intervalo de confianza del 95% para la diferencia entre las dos medias de población.
Paso 2. Realizas muchos más experimentos (miles). La diferencia entre medias variará de un experimento a otro debido al muestreo aleatorio.
Pregunta: ¿Qué fracción de la diferencia entre las medias de la colección de experimentos en el paso 2 estará dentro del intervalo de confianza del paso 1?
Eso no puede ser respondido. Todo depende de lo que sucedió en el paso 1. Si ese experimento del paso 1 fue muy atípico, la respuesta a la pregunta podría ser muy baja.
Así que imagine que ambos pasos se repiten muchas veces (con el paso 2 repetido muchas más veces). Creo que ahora debería ser posible llegar a la expectativa de qué fracción de los experimentos repetidos, en promedio, tiene un tamaño de efecto dentro del intervalo de confianza del 95% del primer experimento.
Parece que la respuesta a estas preguntas debe entenderse para evaluar la reproducibilidad de los estudios, un área muy candente ahora.
fuente
Respuestas:
Análisis
Debido a que esta es una pregunta conceptual, para simplificar, consideremos la situación en la que un intervalo de confianza se construye para una media usando un se toma una muestra aleatoria de tamaño y se toma una segunda muestra aleatoria de tamaño , todos de la misma distribución Normal . (Si lo desea, puede reemplazar las s por valores de la distribución Student de grados de libertad; el siguiente análisis no cambiará).[ ˉ x ( 1 ) + Z α / 2 s ( 1 ) / √1−α μx(1)nx(2)m(μ,σ2)Ztn-1
La posibilidad de que la media de la segunda muestra se encuentre dentro del IC determinado por la primera es
Debido a que la primera muestra media es independiente de la primera desviación estándar de la muestra (esto requiere normalidad) y la segunda muestra es independiente de la primera, la diferencia en la muestra significa es independiente de . Además, para este intervalo simétrico . Por lo tanto, escribiendo para la variable aleatoria y cuadrando ambas desigualdades, la probabilidad en cuestión es la misma quex¯(1) s(1) U=x¯(2)−x¯(1) s(1) Zα/2=−Z1−α/2 S s(1)
Las leyes de la expectativa implican que tiene una media de y una varianza deU 0
Como es una combinación lineal de variables normales, también tiene una distribución normal. Por lo tanto, es veces una variable . Ya sabíamos que es veces una variable . En consecuencia, es veces una variable con una distribución . La probabilidad requerida está dada por la distribución F comoU U2 σ2(1n+1m) χ2(1) S2 σ2/n χ2(n−1) U2/S2 1/n+1/m F(1,n−1)
Discusión
Un caso interesante es cuando la segunda muestra tiene el mismo tamaño que la primera, de modo que y solo y determinan la probabilidad. Aquí están los valores de trazados contra para .n/m=1 n α (1) α n=2,5,20,50
Los gráficos se elevan a un valor límite en cada medida que aumenta. El tamaño de prueba tradicional está marcado por una línea gris vertical. Para valores grandes de , la posibilidad limitante de es de alrededor del .α n α=0.05 n=m α=0.05 85%
Al comprender este límite, veremos más allá de los detalles de tamaños de muestra pequeños y comprenderemos mejor el quid de la cuestión. A medida que crece, la distribución aproxima a una . En términos de la distribución normal estándar , la probabilidad luego se aproximan=m F χ2(1) Φ (1)
Por ejemplo, con , y . En consecuencia, el valor límite alcanzado por las curvas en cuando aumenta será . Puede ver que casi se ha alcanzado para (donde la probabilidad es ).α=0.05 Zα/2/2–√≈−1.96/1.41≈−1.386 Φ(−1.386)≈0.083 α=0.05 n 1−2(0.083)=1−0.166=0.834 n=50 0.8383…
Para pequeño , la relación entre y la probabilidad complementaria, el riesgo de que el IC no cubra la segunda media, es casi perfectamente una ley de poder.α α Otra forma de expresar esto es que la probabilidad complementaria logarítmica es casi una función lineal de . La relación limitante es aproximadamentelogα
En otras palabras, para grandes y cualquier lugar cerca del valor tradicional de , estará cerca den=m α 0.05 (1)
(Esto me recuerda mucho el análisis de intervalos de confianza superpuestos que publiqué en /stats//a/18259/919 . De hecho, el poder mágico allí, , es casi el recíproco del poder mágico aquí, . En este punto, debería poder reinterpretar ese análisis en términos de reproducibilidad de los experimentos).1.91 0.557
Resultados experimentales
Estos resultados se confirman con una simulación directa. El siguiente(1) 2 Z t ( 1 )n,m,μ,σ,α Z t (1)
R
código devuelve la frecuencia de cobertura, la probabilidad calculada con y una puntuación Z para evaluar cuánto difieren. Los puntajes Z generalmente tienen un tamaño inferior a , independientemente de (o incluso si se calcula un o CI), lo que indica la exactitud de la fórmula .2 nfuente
qt
[Editado para corregir el error que WHuber señaló.]
Modifiqué el código R de @ Whuber para usar la distribución t, y trazar la cobertura en función del tamaño de la muestra. Los resultados están abajo. Con un tamaño de muestra alto, los resultados coinciden con los de WHuber, por supuesto.
Y aquí está el código R adaptado, ejecute dos veces con alfa establecido en 0.01 o 0.05.
Y aquí está el archivo GraphPad Prism que hizo el gráfico.
fuente
T
fuera del ciclo! Si desea ver las curvas correctas, simplemente complételas directamente usando el resultado teórico en mi respuesta, como se indica al final de miR
código (en lugar de confiar en los resultados simulados):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")