Significado de los errores estándar 2.04? Significativamente diferentes medios cuando los intervalos de confianza se superponen ampliamente?

La imagen a continuación es de este artículo en Psychological Science . Un colega señaló dos cosas inusuales al respecto:

Según el título, las barras de error muestran "± 2.04 errores estándar, el intervalo de confianza del 95%". Solo he visto ± 1.96 SE usado para el IC del 95%, y no puedo encontrar nada sobre 2.04 SE que se use para ningún propósito. ¿2.04 SE tiene algún significado aceptado ?
El texto establece que las comparaciones planificadas por pares encontraron diferencias significativas para la magnitud media de sobresalto en el error frente a los ensayos predecibles correctos (t (30) = 2.51, p <.01) y el error frente a los ensayos impredecibles correctos (t (30) = 2.61, p <.01) (la prueba omnibus F también fue significativa en p <.05). Sin embargo, el gráfico muestra las barras de error para las tres condiciones que se superponen sustancialmente. Si los intervalos de ± 2.04 SE se superponen, ¿cómo pueden los valores ser significativamente diferentes en p <.05? La superposición es lo suficientemente grande como para suponer que los intervalos de ± 1.96 SE también se superponen.

gráfico de barras que muestra barras de error 2.04 SE

confidence-interval standard-error octern
fuente

Grandes respuestas Me gustaría enfatizar que (como Whuber ya señaló) comparar intervalos de confianza del 95% no es lo mismo que realizar pruebas estadísticas en el nivel de significancia 0.05. Por supuesto, hay documentos que se ocupan de esto. Si los intervalos de confianza son las únicas estadísticas disponibles, Payton et al sugieren utilizar intervalos del 85% para el nivel de significancia 0.05 para los datos gaussianos. Siguen su trabajo aquí .

Martin Berglund

Gracias @ Martin. Para cerrar el ciclo: aunque no he mirado el artículo de Payton et al , la base para el 85% es clara: el valor z correspondiente al 84%, cuando está al cuadrado , es igual a ; agregar dos de estos da ; su raíz cuadrada es , que es más o menos el valor z correspondiente a un intervalo del 95%. Supongo que Payton redondeó 84% a 85%. En otras palabras, su recomendación (como se haya derivado) puede explicarse por el mismo análisis que proporcioné.

2

$2$

4

$4$

2

$2$

whuber

@MartinBerglund y Whuber se encontraron con sus respuestas al preguntarse si mi cálculo independiente de intervalos de confianza del 83.4% para realizar pruebas estadísticas al nivel 0.05 era original, ¡evidentemente no! Gracias por la referencia en papel, muy útil.

tristan

Respuestas:

$2.04$ es el multiplicador para usar con una distribución t de Student con 31 grados de libertad. Las citas sugieren que grados de libertad es apropiado, en cuyo caso el multiplicador correcto es . $30$ $2.042272 \approx 2.04$
Las medias se comparan en términos de errores estándar . El error estándar es típicamente veces la desviación estándar, donde (presumiblemente alrededor de aquí) es el tamaño de la muestra. Si el título es correcto al llamar a estas barras los "errores estándar", entonces las desviaciones estándar deben ser al menos veces mayores que los valores de aproximadamente como se muestra. Un conjunto de datos de valores positivos con una desviación estándar de y una media entre y debería tener la mayoría de los valores cerca de $1/\sqrt{n}$ $n$ $30+1=31$ $\sqrt{31} \approx 5.5$ $6$ $31$ $6 \times 5.5 = 33$ $14$ $18$ $0$ y una pequeña cantidad de grandes valores, lo que parece bastante improbable. (Si esto fuera así, entonces el análisis completo basado en las estadísticas de Student t sería inválido de todos modos). Deberíamos concluir que la figura probablemente muestra desviaciones estándar, no errores estándar .
Las comparaciones de medias no se basan en la superposición (o falta de ella) de intervalos de confianza. Dos IC del 95% pueden superponerse, pero aún pueden indicar diferencias muy significativas. La razón es que el error estándar de la diferencia en medias ( independientes ) es, al menos aproximadamente, la raíz cuadrada de la suma de cuadrados de los errores estándar de las medias. Por ejemplo, si el error estándar de una media de es igual a y el error estándar de una media de es igual a , entonces el IC de la primera media (usando un múltiplo de ) se extenderá de a y el IC de el segundo se extenderá desde $14$ $1$ $17$ $1$ $2.04$ $11.92$ $16.08$ $14.92$ a , con superposición sustancial. Sin embargo, el SE de la diferencia será igual a . La diferencia de medias, , es mayor que veces este valor: es significativo. $19.03$ $\sqrt{1^2+1^2}\approx 1.41$ $17-14=3$ $2.04$
Estas son comparaciones por pares . Los valores individuales pueden exhibir mucha variabilidad, mientras que sus diferencias pueden ser muy consistentes. Por ejemplo, un conjunto de pares como , , , , etc., exhibe variación en cada componente, pero las diferencias son consistentemente . Aunque esta diferencia es pequeña en comparación con cualquiera de los componentes, su consistencia muestra que es estadísticamente significativa. $(14,14.01)$ $(15,15.01)$ $(16,16.01)$ $(17,17.01)$ $0.01$

whuber
fuente

Muchas gracias. El artículo no establece en ninguna parte que las pruebas post-hoc fueron comparaciones pareadas entre las respuestas de cada participante en los dos tipos de ensayos, por lo que salté a la conclusión de que lo trataban como una comparación entre sujetos (aunque eso sería menos apropiado y menos poderoso). Creo que debe tener razón, y estaban haciendo la prueba más sensible (y más difícil de graficar). En cuanto a el punto # 3, mi única respuesta es que con claridad que necesito volver a aprender algunas estadísticas ...

octern

Estaba captando una frase en su pregunta, "comparaciones planificadas por pares". Sin embargo, el resto de los resultados que cita, sugieren que no se trataba de comparaciones por pares, sino que probablemente provenían de un cálculo similar al del punto n. ° 3 de mi respuesta.

whuber

Lo que quise decir con eso fue que estaban haciendo pruebas post-hoc que comparaban dos de las tres condiciones entre sí directamente, en lugar de hacer una prueba general que comparaba las 3 condiciones. Perdón por la confusión. Pero ahora que lo miro, creo que estabas en lo correcto de todos modos. La forma en que informan el estadístico de prueba ómnibus ( F(2,60)=5.64, p<.05) implica que fue una prueba de medidas repetidas, por lo que es probable que las pruebas post hoc también lo sean.

octern

Gracias por tu gran respuesta. "La razón es que el error estándar de la diferencia en las medias (independientes) es, al menos aproximadamente, la raíz cuadrada de la suma de los cuadrados de los errores estándar de las medias". Estoy buscando referencias, que discutan esto, pero no pude encontrar ninguna. Agradecería alguna orientación a este respecto. Tal vez alguien podría ayudarme?

Johannes

@Johannes El cuadrado del SE es proporcional a la varianza de la media muestral. (La constante de proporcionalidad depende de la definición de uno y puede variar ligeramente con el tamaño de la muestra). La independencia implica que la variación de la distribución muestral de la diferencia de medias es la suma de los cuadrados de los SE.

whuber

Parte de la confusión aquí es la representación confusa de los datos. Parece ser un diseño de medidas repetidas pero las barras de error son intervalos de confianza de qué tan bien se estimó el verdadero valor medio. Un objetivo principal de las medidas repetidas es evitar la recopilación de datos suficientes para obtener una estimación de calidad del valor medio bruto. Por lo tanto, las barras de error como las presentadas realmente no tienen casi ninguna relación con la historia que se cuenta. El valor del interés crítico es el efecto. Con el propósito de que los gráficos resalten el punto principal de la historia, graficar los efectos y sus intervalos de confianza hubiera sido más apropiado.

Juan
fuente

¡Gracias! Estaba luchando un poco para expresar por qué el gráfico parecía no representar el análisis.

octern