Desacuerdo entre valores p e intervalos de confianza

Esta es una pregunta sobre la prueba t en SPSS.

Tengo dos grupos y quiero probar si las dos medias son iguales. Estoy usando la prueba t con bootstrapping. Al final obtuve un valor p <0.005, lo que generalmente me llevaría a rechazar la hipótesis nula de que las medias de las dos poblaciones son iguales, pero en mi caso el cero se encuentra dentro de los intervalos de confianza de arranque de 95% BCa basados en 1000 muestras .

¿Todavía rechazo la hipótesis de la igualdad de medios?

confidence-interval t-test p-value spss Liza Vieira
fuente

Para aclarar, ¿realizó una prueba t de arranque de la que ahora está comparando el valor p y el IC del 95%, o ejecutó una prueba t estándar (no de arranque) para obtener el valor p y solo utilizó el arranque para el CI?

Rose Hartman

Respuestas:

Advertencia: esta respuesta supone que la pregunta es sobre la interpretación de valores p y CIs de bootstrapped. Una comparación entre un valor p tradicional (no bootstrapped) y un CI bootstrapped sería un problema diferente.

Con una prueba t tradicional (no bootstrapped), el IC del 95% y la posición del valor p en relación con el corte de significancia de .05 siempre le dirá lo mismo. Esto se debe a que ambos se basan en la misma información: la distribución t para sus grados de libertad y el error medio y estándar observado en su muestra (o la diferencia entre las medias y el error estándar, en el caso de un t- de dos muestras prueba). Si su CI no se superpone con 0, entonces su valor p será necesariamente <.05 --- a menos, por supuesto, que haya un error en el software o un error del usuario en la implementación o interpretación de la prueba.

Con una prueba t bootstrapped, el valor de CI y p se calculan directamente a partir de la distribución empírica generada por el bootstrapping: el valor p es simplemente qué porcentaje de las diferencias del grupo bootstrapped son más extremas que la diferencia original observada; el IC del 95% es el 95% medio de las diferencias de grupo de arranque. No es imposible que el valor p y el IC no estén de acuerdo sobre la importancia en una prueba de arranque.

¿Aceptas o rechazas la hipótesis nula?

En el contexto de una prueba bootstrapped, el valor p (en comparación con el IC) refleja más directamente el espíritu de la prueba de hipótesis, por lo que tiene más sentido confiar en ese valor para decidir si rechazar o no el valor nulo en su alfa deseado (generalmente .05). Entonces, en su caso, donde el valor p es menor que 0.05 pero el IC del 95% contiene cero, recomiendo rechazar la hipótesis nula .

Todo esto pasa por alto las grandes ideas sobre cuán importante debería ser realmente la "importancia" y si las pruebas de significado de hipótesis nulas son realmente útiles para una herramienta. Brevemente, siempre recomiendo complementar cualquier análisis de prueba de significación con la estimación de los tamaños del efecto (para una prueba t de dos muestras, la mejor estimación del tamaño del efecto probablemente sea la d de Cohen ), que puede proporcionar un contexto adicional para ayudarlo a comprender sus resultados.

Publicación útil relacionada: ¿Cuál es el significado de un intervalo de confianza tomado de resamples de bootstrapped?

Rose Hartman
fuente

Esta es una gran respuesta (+1), pero algunos consejos sobre cómo se acerca el OP si acepta o rechaza el Nulo completarían la respuesta a la pregunta final del OP.

Ashe

@Ashe Gracias! Tienes razón en que no abordé la pregunta central de frente. Lo editaré para mejorar eso.

Rose Hartman

"para una prueba t de dos muestras, la mejor estimación del tamaño del efecto probablemente sea la d de Cohen" ¿Es esto específico para el arranque? Como creo que para una prueba t normal, el intervalo de confianza le brinda la mejor información sobre el tamaño del efecto en la escala real en la que realizó la prueba.

David Ernst

La d de Cohen es para cualquier diferencia de dos grupos; bootstrapping o no es irrelevante. Los IC generalmente no se consideran estimaciones del "tamaño del efecto" ya que dependen del tamaño de la muestra (por ejemplo, en.wikipedia.org/wiki/… : "A diferencia del estadístico de la prueba t, el tamaño del efecto tiene como objetivo estimar un parámetro de población y no se ve afectado por el tamaño de la muestra. ") ¿Quizás lo que se está preguntando es las estimaciones de tamaño de efecto estandarizadas versus no estandarizadas? El tamaño del efecto no estandarizado para dos grupos es solo la diferencia cruda entre las medias.

Rose Hartman

¡Muchas gracias! Su explicación sobre qué valor p y CI están en el contexto de una prueba t de arranque fue muy útil. Como sugiere, determiné la d de Cohen, una estadística muy útil para comprender mis resultados.

Liza Vieira

Si el valor p de la hipótesis nula es menor que 0.05, entonces el cero no debe estar contenido en el intervalo de confianza a 0.05 del parámetro que se supone que es cero en la hipótesis nula. Esto es lo mismo. Entonces hay un error o no pruebas la misma hipótesis.

EDITAR , como las otras respuestas y el comentario a continuación indican correctamente, esta no es la historia completa. Sin embargo, sigo pensando que si una prueba indica que los grupos tienen una media diferente (p <0.005), y la otra no rechaza (p> 0.05), probablemente las pruebas realmente estén verificando algo diferente.

Si bien en teoría esta diferencia podría deberse a los asintóticos (los bootstraps son aproximaciones en muestras finitas, otras pruebas son aproximaciones basadas en supuestos de normalidad), esa diferencia es sorprendentemente grande. Sostengo que es alarmantemente grande, y sin darse cuenta de lo que está sucediendo con eso, aún no debe sacar conclusiones. Eso también es exactamente lo que estás haciendo, por cierto, publicando la pregunta aquí. Tal vez puedas compartir los números y hacer que esta interesante pregunta sea un poco más concreta.

Gijs
fuente

Estoy en desacuerdo. Un intervalo de confianza de arranque puede no seguir los resultados de una prueba t, ya que es un tipo de procedimiento completamente diferente (en este caso, basado en la diferencia de las medias grupales). Especialmente cuando se realiza un intervalo de confianza de arranque acelerado y con corrección de sesgo, pueden ocurrir cosas como intervalos de confianza asimétricos alrededor de la estimación original (es decir, diferencia de medias de grupo en este caso).

IWS