Relación entre el intervalo de confianza y la prueba de hipótesis estadísticas para la prueba t

31

Es bien sabido que los intervalos de confianza y las hipótesis estadísticas de prueba están fuertemente relacionados. Mis preguntas se centran en la comparación de medias para dos grupos en función de una variable numérica. Supongamos que dicha hipótesis se prueba con la prueba t. Por otro lado, uno puede calcular los intervalos de confianza para las medias de ambos grupos. ¿Existe alguna relación entre la superposición de intervalos de confianza y el rechazo de la hipótesis nula de que las medias son iguales (a favor de la alternativa que significa diferir: prueba de dos lados)? Por ejemplo, una prueba podría rechazar la hipótesis nula si los intervalos de confianza no se superponen.

hypothesis-testing confidence-interval Lan
fuente

31

Sí, hay algunas relaciones simples entre las comparaciones de intervalos de confianza y las pruebas de hipótesis en una amplia gama de entornos prácticos. Sin embargo, además de verificar que los procedimientos de CI y la prueba t son apropiados para nuestros datos, debemos verificar que los tamaños de muestra no sean demasiado diferentes y que los dos conjuntos tengan desviaciones estándar similares. Tampoco deberíamos intentar obtener valores p altamente precisos a partir de la comparación de dos intervalos de confianza, sino que deberíamos alegrarnos de desarrollar aproximaciones efectivas.

Al tratar de conciliar las dos respuestas ya dadas (por @John y @Brett), ayuda a ser matemáticamente explícito. Una fórmula para un intervalo de confianza simétrico de dos lados apropiado para el establecimiento de esta pregunta es

CI = m \pm \frac{t_{α} (n) s}{\sqrt{norte}}

$\text{CI} = m \pm \frac{t_\alpha(n) s}{\sqrt{n}}$

donde $m$ es la media muestral de $n$ observaciones independientes, $s$ es la desviación estándar de la muestra, $2\alpha$ es el tamaño de prueba deseado (tasa máxima de falsos positivos) y $t_\alpha(n)$ es el percentil superior $1-\alpha$ de la distribución t de Student con $n-1$ grados de libertad. (Esta ligera desviación de la notación convencional simplifica la exposición al evitar cualquier necesidad de preocuparse por la distinción $n$ vs $n-1$ , que de todos modos será intrascendente).

Usando los subíndices $1$ y $2$ para distinguir dos conjuntos independientes de datos para la comparación, con $1$ correspondiente al mayor de los dos medios, la desigualdad (límite de confianza inferior 1) (límite de confianza superior 2 expresa una no superposición de intervalos de confianza) ); verbigracia. , $\gt$

{metro}_{1} - \frac{t_{α} ({norte}_{1}) s_{1}}{\sqrt{{norte}_{1}}} > {metro}_{2} + \frac{t_{α} ({norte}_{2}) s_{2}}{\sqrt{{norte}_{2}}} .

$m_1 - \frac{t_\alpha(n_1) s_1}{\sqrt{n_1}} \gt m_2 + \frac{t_\alpha(n_2) s_2}{\sqrt{n_2}}.$

Se puede hacer que se parezca al estadístico t de la prueba de hipótesis correspondiente (para comparar las dos medias) con manipulaciones algebraicas simples, produciendo

\frac{{metro}_{1} - {metro}_{2}}{\sqrt{s_{1}^{2} / / {norte}_{1} + s_{2}^{2} / / {norte}_{2}}} > \frac{s_{1} \sqrt{{norte}_{2}} t_{α} ({norte}_{1}) + s_{2} \sqrt{{norte}_{1}} t_{α} ({norte}_{2})}{\sqrt{{norte}_{1} s_{2}^{2} + {norte}_{2} s_{1}^{2}}} .

$\frac{m_1-m_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} \gt \frac{s_1\sqrt{n_2}t_\alpha(n_1) + s_2\sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 s_2^2 + n_2 s_1^2}}.$

El lado izquierdo es la estadística utilizada en la prueba de hipótesis; generalmente se compara con un percentil de una distribución t de Student con $n_1+n_2$ grados de libertad: es decir, con $t_\alpha(n_1+n_2)$ . El lado derecho es un promedio ponderado sesgado de los percentiles originales de distribución t.

El análisis hasta ahora justifica la respuesta de @Brett: parece que no hay una relación simple disponible. Sin embargo, probemos más. ¡Estoy inspirado para hacerlo porque, intuitivamente, una no superposición de intervalos de confianza debería decir algo!

Primero, observe que esta forma de prueba de hipótesis es válida solo cuando esperamos que $s_1$ y $s_2$ sean al menos aproximadamente iguales. (De lo contrario, enfrentamos el notorio problema de Behrens-Fisher y sus complejidades). Al verificar la igualdad aproximada de $s_i$ , podríamos crear una simplificación aproximada en el formulario

\frac{{metro}_{1} - {metro}_{2}}{s \sqrt{1 / / {norte}_{1} + 1 / / {norte}_{2}}} > \frac{\sqrt{{norte}_{2}} t_{α} ({norte}_{1}) + \sqrt{{norte}_{1}} t_{α} ({norte}_{2})}{\sqrt{{norte}_{1} + {norte}_{2}}} .

$\frac{m_1-m_2}{s\sqrt{1/n_1 + 1/n_2}} \gt \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}.$

Aquí, $s \approx s_1 \approx s_2$ . Siendo realistas, no deberíamos esperar que esta comparación informal de límites de confianza tenga el mismo tamaño que $\alpha$ . Nuestra pregunta es si existe un $\alpha'$ tal que el lado derecho sea (al menos aproximadamente) igual al estadístico t correcto. Es decir, para qué $\alpha'$ es el caso que

t_{α^{'}} (n_{1} + n_{2}) = \frac{\sqrt{n_{2}} t_{α} (n_{1}) + \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} + n_{2}}} ?

$t_{\alpha'}(n_1+n_2) = \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}\text{?}$

Resulta que para tamaños de muestra iguales, $\alpha$ y $\alpha'$ están conectados (con bastante precisión) por una ley de potencia. Por ejemplo, aquí hay una gráfica de log-log de los dos para los casos $n_1=n_2=2$ (línea azul más baja), $n_1=n_2=5$ (línea roja media), $n_1=n_2=\infty$ ( línea de oro más alta). La línea discontinua verde central es una aproximación que se describe a continuación. La rectitud de estas curvas desmiente una ley de poder. Varía con $n=n_1=n_2$ , pero no mucho.

Parcela 1

La respuesta depende del conjunto $\{n_1, n_2\}$ , pero es natural preguntarse cuánto varía realmente con los cambios en los tamaños de muestra. En particular, podríamos esperar que para tamaños de muestra moderados a grandes (quizás $n_1 \ge 10, n_2 \ge 10$ o más o menos) el tamaño de la muestra haga poca diferencia. En este caso, podríamos desarrollar una forma cuantitativa de relacionar $\alpha'$ con $\alpha$ .

Este enfoque funciona si los tamaños de muestra no son muy diferentes entre sí. En aras de la simplicidad, informaré una fórmula general para calcular el tamaño de prueba $\alpha'$ correspondiente al tamaño del intervalo de confianza $\alpha$ . Es

α^{'} \approx mi α^{1,91};

$\alpha' \approx e \alpha^{1.91};$

es decir,

α^{'} \approx \exp (1 + 1,91 Iniciar sesión (α)) .

$\alpha' \approx \exp(1 + 1.91\log(\alpha)).$

Esta fórmula funciona razonablemente bien en estas situaciones comunes:

Ambos tamaños de muestra están cerca uno del otro, $n_1 \approx n_2$ , y $\alpha$ no es demasiado extremo ( $\alpha \gt .001$ o menos).
Un tamaño de muestra es aproximadamente tres veces mayor que el otro y el más pequeño no es demasiado pequeño (aproximadamente, mayor que $10$ ) y nuevamente $\alpha$ no es demasiado extremo.
Un tamaño de muestra está dentro de tres veces el otro y $\alpha \gt .02$ o menos.

El error relativo (valor correcto dividido por la aproximación) en la primera situación se traza aquí, con la línea inferior (azul) mostrando el caso $n_1=n_2=2$ , la línea media (roja) el caso $n_1=n_2=5$ , y la línea superior (dorada) el caso $n_1=n_2=\infty$ . Interpolando entre los dos últimos, vemos que la aproximación es excelente para una amplia gama de valores prácticos de $\alpha$ cuando los tamaños de muestra son moderados (alrededor de 5-50) y de lo contrario es razonablemente bueno.

Parcela 2

Esto es más que suficiente para mirar un montón de intervalos de confianza.

$2\alpha$ $2e \alpha^{1.91}$

$2\alpha$

$2\alpha$ $2\alpha'$

0.05 0.005

0.01 0.0002

0.005 0.00006

$2\alpha=.05$ $p \lt .005$ $n$ $.0037$ $n=2$ $.0056$ $n=\infty$

Este resultado justifica (y espero que mejore) la respuesta de @John. Por lo tanto, aunque las respuestas anteriores parecen estar en conflicto, ambas son (a su manera) correctas.

whuber
fuente

7

No, al menos no es simple.

Sin embargo, existe una correspondencia exacta entre la prueba t de diferencia entre dos medias y el intervalo de confianza para la diferencia entre las dos medias.

Si el intervalo de confianza para la diferencia entre dos medias contiene cero, una prueba t para esa diferencia no podría rechazar nulo en el mismo nivel de confianza. Del mismo modo, si el intervalo de confianza no contiene 0, la prueba t rechazaría el valor nulo.

Esto no es lo mismo que la superposición entre los intervalos de confianza para cada uno de los dos medios.

Brett
fuente

La respuesta de @John, que aunque en la actualidad no está del todo bien en los detalles, señala correctamente que sí, puede relacionar superposiciones de CI con valores p de prueba. La relación no es más compleja que la prueba t en sí. Esto tiene la apariencia de contradecir su conclusión principal como se indica en la primera línea. ¿Cómo resolverías esta diferencia?

whuber

No creo que sean contradictorias. Puedo agregar algunas advertencias. Pero, en el sentido general, sin suposiciones adicionales y conocimiento sobre parámetros fuera de la presentación del intervalo (la varianza, el tamaño de la muestra) la respuesta se mantiene como está. No, al menos no es simple.

Brett

5

Bajo supuestos típicos de igual varianza, sí, hay una relación. Si las barras se superponen en menos de la longitud de una barra * sqrt (2), entonces una prueba t los encontraría significativamente diferentes en alfa = 0.05. Si los extremos de las barras apenas se tocan, entonces se encontraría una diferencia en 0.01. Si los intervalos de confianza para los grupos no son iguales, normalmente se toma el promedio y se aplica la misma regla.

Alternativamente, si el ancho de un intervalo de confianza alrededor de una de las medias es w, entonces la diferencia menos significativa entre dos valores es w * sqrt (2). Esto es simple cuando piensa en el denominador en la prueba t de grupos independientes, sqrt (2 * MSE / n), y el factor para el CI que, sqrt (MSE / n).

(IC del 95% asumido)

Hay un simple papel en hacer inferencias a partir de intervalos de confianza de medios independientes aquí . Contestará esta pregunta y muchas otras relacionadas que pueda tener.

Cumming, G. y Finch, S. (2005, marzo). Inferencia a simple vista: intervalos de confianza y cómo leer imágenes de datos. Psicólogo estadounidense , 60 (2), 170-180.

John
fuente

2

Creo que también debes asumir que los dos grupos tienen los mismos tamaños.

whuber

más o menos, sí ...

John

Relación entre el intervalo de confianza y la prueba de hipótesis estadísticas para la prueba t

Respuestas: