¿Es posible que el ANOVA unidireccional (con grupos o "niveles") informe una diferencia significativa cuando ninguna de las pruebas t por pares N ( N - 1 ) / 2 lo hace?
En esta respuesta, @whuber escribió:
Es bien sabido que una prueba ANOVA F global puede detectar una diferencia de medias incluso en los casos en que ninguna prueba t individual [no ajustada por pares] de ninguno de los pares de medias arroje un resultado significativo.
aparentemente es posible, pero no entiendo cómo. ¿Cuándo sucede y cuál sería la intuición detrás de tal caso? ¿Quizás alguien puede proporcionar un ejemplo simple de juguete de tal situación?
Algunas observaciones adicionales:
Lo contrario es claramente posible: el ANOVA general puede no ser significativo, mientras que algunas de las pruebas t por pares informan erróneamente diferencias significativas (es decir, serían falsos positivos).
Mi pregunta es acerca de las pruebas t estándar, no ajustadas para comparaciones múltiples. Si se utilizan pruebas ajustadas (como, por ejemplo, el procedimiento HSD de Tukey), entonces es posible que ninguna de ellas resulte significativa aunque el ANOVA general lo sea. Esto se cubre aquí en varias preguntas, por ejemplo, ¿cómo puedo obtener un ANOVA general significativo pero sin diferencias significativas por pares con el procedimiento de Tukey? e interacción ANOVA significativa pero comparaciones por parejas no significativas .
Actualizar. Mi pregunta originalmente se refería a las pruebas t de dos muestras habituales . Sin embargo, como señaló @whuber en los comentarios, en el contexto ANOVA, las pruebas t generalmente se entienden como contrastes post hoc utilizando la estimación ANOVA de la varianza dentro del grupo, agrupada en todos los grupos (que no es lo que sucede en dos -muestra prueba t). Entonces, en realidad, hay dos versiones diferentes de mi pregunta, y la respuesta a ambas resulta positiva. Vea abajo.
fuente
Respuestas:
Nota: Hubo algo mal con mi ejemplo original. Estúpidamente fui atrapado por el argumento silencioso de R reciclando. Mi nuevo ejemplo es bastante similar al anterior. Esperemos que todo esté bien ahora.
Aquí hay un ejemplo que hice que tiene el ANOVA significativo al nivel del 5%, pero ninguna de las 6 comparaciones por pares son significativas, incluso al nivel del 5% .
Aquí están los datos:
Aquí está el ANOVA:
Aquí están los dos valores p de la prueba t de muestra (supuesto de varianza igual):
Con un poco más de juego con las medias grupales o los puntos individuales, la diferencia en importancia podría hacerse más sorprendente (en el sentido de que podría hacer que el primer valor p sea más pequeño y el más bajo del conjunto de seis valores p para la prueba t sea más alto) )
-
Editar: Aquí hay un ejemplo adicional que se generó originalmente con ruido sobre una tendencia, que muestra cuánto mejor puede hacer si mueve un poco los puntos:
La F tiene un valor p inferior al 3% y ninguna de las t tiene un valor p inferior al 8%. (Para un ejemplo de 3 grupos, pero con un valor p algo mayor en la F, omita el segundo grupo)
Y aquí hay un ejemplo realmente simple, aunque más artificial, con 3 grupos:
(En este caso, la varianza más grande está en el grupo medio, pero debido al mayor tamaño de la muestra allí, el error estándar de la media del grupo es aún menor)
Pruebas t de comparaciones múltiples
Whuber sugirió que considere el caso de comparaciones múltiples. Resulta ser bastante interesante.
El caso de las comparaciones múltiples (todo realizado en el nivel de significancia original, es decir, sin ajustar el alfa para las comparaciones múltiples) es algo más difícil de lograr, ya que jugar con variaciones más grandes y más pequeñas o más y menos df en los diferentes grupos no ayuda de la misma manera que lo hacen con las pruebas t de dos muestras ordinarias.
Sin embargo, todavía tenemos las herramientas para manipular el número de grupos y el nivel de significancia; Si elegimos más grupos y niveles de significancia más pequeños, nuevamente se vuelve relativamente sencillo identificar casos. Aquí hay uno:
Sin embargo, el valor p más pequeño en las comparaciones por pares no es significativo en ese nivel:
fuente
Resumen: Creo que esto es posible, pero muy, muy poco probable. La diferencia será pequeña, y si sucede, es porque se ha violado un supuesto (como la homocedasticidad de la varianza).
Aquí hay un código que busca tal posibilidad. Tenga en cuenta que incrementa la semilla en 1 cada vez que se ejecuta, de modo que la semilla se almacena (y la búsqueda a través de semillas es sistemática).
Buscando un R2 significativo y sin pruebas t no significativas, no he encontrado nada hasta una semilla de 18,000. Al buscar un valor p más bajo de R2 que de las pruebas t, obtengo un resultado en seed = 323, pero la diferencia es muy, muy pequeña. Es posible que ajustar los parámetros (¿aumentar el número de grupos?) Pueda ayudar. La razón por la que el valor p de R2 puede ser menor es que cuando se calcula el error estándar para los parámetros en la regresión, todos los grupos se combinan, por lo que el error estándar de la diferencia es potencialmente menor que en la prueba t.
Me preguntaba si violar la heteroscedasticidad podría ayudar (por así decirlo). Lo hace. Si yo uso
Para generar la y, entonces encuentro un resultado adecuado en seed = 1889, donde el valor p mínimo de las pruebas t es 0.061 y el valor p asociado con R cuadrado es 0.046.
Si varío el tamaño del grupo (lo que aumenta el efecto de violación de la heterocedasticidad), reemplazando el muestreo x con:
Obtengo un resultado significativo en seed = 531, con el valor p mínimo de la prueba t en 0.063 y el valor p para R2 en 0.046.
Si dejo de corregir la heterocedasticidad en la prueba t, usando:
Mi conclusión es que es muy poco probable que esto ocurra, y es probable que la diferencia sea muy pequeña, a menos que haya violado el supuesto de homocedasticidad en la regresión. Intente ejecutar su análisis con un sólido / sandwich / como quiera llamarlo corrección.
fuente
Es completamente posible:
La prueba F general prueba todos los contrastes simultáneamente . Como tal, debe ser menos sensible (menos poder estadístico) a los contrastes individuales (por ejemplo, una prueba por pares). Las dos pruebas están estrechamente relacionadas entre sí, pero no informan exactamente lo mismo.
Como puede ver, la recomendación del libro de texto de no hacer comparaciones planificadas a menos que la prueba F general sea significativa no siempre es correcta. De hecho, la recomendación puede evitar que encontremos diferencias significativas porque la prueba F general tiene menos potencia que las comparaciones planificadas para probar las diferencias específicas.
fuente