2norte( N- 1 ) / 2norte(norte-1)/ /2N(N-1)/2 En esta respuesta, @whuber escribió: Es bien sabido que una..."/>

¿Puede ANOVA ser significativo cuando ninguna de las pruebas t por pares lo es?

29

¿Es posible que el ANOVA unidireccional (con grupos o "niveles") informe una diferencia significativa cuando ninguna de las pruebas t por pares N ( N - 1 ) / 2 lo hace?norte>2norte(norte-1)/ /2

En esta respuesta, @whuber escribió:

Es bien sabido que una prueba ANOVA F global puede detectar una diferencia de medias incluso en los casos en que ninguna prueba t individual [no ajustada por pares] de ninguno de los pares de medias arroje un resultado significativo.

aparentemente es posible, pero no entiendo cómo. ¿Cuándo sucede y cuál sería la intuición detrás de tal caso? ¿Quizás alguien puede proporcionar un ejemplo simple de juguete de tal situación?

Algunas observaciones adicionales:

  1. Lo contrario es claramente posible: el ANOVA general puede no ser significativo, mientras que algunas de las pruebas t por pares informan erróneamente diferencias significativas (es decir, serían falsos positivos).

  2. Mi pregunta es acerca de las pruebas t estándar, no ajustadas para comparaciones múltiples. Si se utilizan pruebas ajustadas (como, por ejemplo, el procedimiento HSD de Tukey), entonces es posible que ninguna de ellas resulte significativa aunque el ANOVA general lo sea. Esto se cubre aquí en varias preguntas, por ejemplo, ¿cómo puedo obtener un ANOVA general significativo pero sin diferencias significativas por pares con el procedimiento de Tukey? e interacción ANOVA significativa pero comparaciones por parejas no significativas .

  3. Actualizar. Mi pregunta originalmente se refería a las pruebas t de dos muestras habituales . Sin embargo, como señaló @whuber en los comentarios, en el contexto ANOVA, las pruebas t generalmente se entienden como contrastes post hoc utilizando la estimación ANOVA de la varianza dentro del grupo, agrupada en todos los grupos (que no es lo que sucede en dos -muestra prueba t). Entonces, en realidad, hay dos versiones diferentes de mi pregunta, y la respuesta a ambas resulta positiva. Vea abajo.

ameba dice Reinstate Monica
fuente
3
Su pregunta está cubierta en muchos hilos: intente buscar en nuestro sitio con una regresión significativa . (ANOVA es una aplicación de regresión de mínimos cuadrados). Por ejemplo, stats.stackexchange.com/questions/14500/… proporciona un ejemplo explícito y algo de intuición. Investigue estos y edite su pregunta, si es posible, para distinguirla de hilos anteriores.
whuber
Gracias, no he visto eso antes. Sin embargo, me cuesta mucho traducir estas explicaciones sobre la regresión múltiple al lenguaje de las comparaciones ANOVA. Por supuesto, este es mi propio problema, pero supongo que no estoy solo, por lo que tal vez una respuesta a mi pregunta aún sería útil para la comunidad. Aquí está mi confusión: alguien dio un ejemplo de retroceso de peso a los tamaños de zapato izquierdo / derecho (dos IV fuertemente correlacionados) => F signif, t not. Muy bien. Ahora en la regresión ANOVA con 3 grupos hay 2 IV simulados ; son ficticios => siempre perfectamente correlacionados ... ¿Y qué?
ameba dice Reinstate Monica
Me temo que no sigo ese último comentario. Primero, el problema no está necesariamente relacionado con una fuerte correlación en la matriz de diseño. En segundo lugar, los dummies no están "perfectamente correlacionados": si lo fueran, el software tendría que eliminar uno de ellos de todos modos. Quizás se esté refiriendo a problemas más sutiles en modelos ANOVA más complejos .
whuber
@amoeba: sus variables ficticias están correlacionadas negativamente.
Michael M
3
Tomo excepción a su "comentario adicional" no. 1. El hecho de que tenga comparaciones por pares altamente significativas y una F no significativa no implica que esos resultados significativos sean falsos positivos. Para saber con certeza que algo es un falso positivo, debe saber que no hay diferencia en los medios reales, los mu. La estadística F no es sagrada. De hecho, ni siquiera es obligatorio. Es más útil para la selección del modelo, pero más allá de eso, apenas es informativo de lo que está sucediendo específicamente en sus datos.
rvl

Respuestas:

18

Nota: Hubo algo mal con mi ejemplo original. Estúpidamente fui atrapado por el argumento silencioso de R reciclando. Mi nuevo ejemplo es bastante similar al anterior. Esperemos que todo esté bien ahora.

Aquí hay un ejemplo que hice que tiene el ANOVA significativo al nivel del 5%, pero ninguna de las 6 comparaciones por pares son significativas, incluso al nivel del 5% .

Aquí están los datos:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

ingrese la descripción de la imagen aquí

Aquí está el ANOVA:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

Aquí están los dos valores p de la prueba t de muestra (supuesto de varianza igual):

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

Con un poco más de juego con las medias grupales o los puntos individuales, la diferencia en importancia podría hacerse más sorprendente (en el sentido de que podría hacer que el primer valor p sea más pequeño y el más bajo del conjunto de seis valores p para la prueba t sea más alto) )

-

Editar: Aquí hay un ejemplo adicional que se generó originalmente con ruido sobre una tendencia, que muestra cuánto mejor puede hacer si mueve un poco los puntos:

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

La F tiene un valor p inferior al 3% y ninguna de las t tiene un valor p inferior al 8%. (Para un ejemplo de 3 grupos, pero con un valor p algo mayor en la F, omita el segundo grupo)

Y aquí hay un ejemplo realmente simple, aunque más artificial, con 3 grupos:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(En este caso, la varianza más grande está en el grupo medio, pero debido al mayor tamaño de la muestra allí, el error estándar de la media del grupo es aún menor)


Pruebas t de comparaciones múltiples

Whuber sugirió que considere el caso de comparaciones múltiples. Resulta ser bastante interesante.

El caso de las comparaciones múltiples (todo realizado en el nivel de significancia original, es decir, sin ajustar el alfa para las comparaciones múltiples) es algo más difícil de lograr, ya que jugar con variaciones más grandes y más pequeñas o más y menos df en los diferentes grupos no ayuda de la misma manera que lo hacen con las pruebas t de dos muestras ordinarias.

Sin embargo, todavía tenemos las herramientas para manipular el número de grupos y el nivel de significancia; Si elegimos más grupos y niveles de significancia más pequeños, nuevamente se vuelve relativamente sencillo identificar casos. Aquí hay uno:

norteyo=2α=0.0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

Sin embargo, el valor p más pequeño en las comparaciones por pares no es significativo en ese nivel:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 
Glen_b -Reinstate a Monica
fuente
2
La prueba t de dos muestras no es lo mismo que las pruebas por pares en la regresión. La distinción radica en las estimaciones de la varianza residual. Por lo tanto, sus ejemplos no son realmente ejemplos de la paradoja más fuerte, que es que dentro de un mismo análisis de regresión, la prueba F puede ser significativa, mientras que ninguna de sus comparaciones por pares es significativa. Creo que esta paradoja tampoco surge necesariamente de la heterocedasticidad: puede aparecer incluso cuando todas las variaciones de grupo son iguales.
whuber
44
Más interesante aún podría ser abordar cuándo es posible que la prueba F rechace el valor nulo, pero ninguna de las pruebas t por pares lo rechace al mismo nivel de significación (utilizando la misma estimación de varianza de error que la prueba F). Por ejemplo, para 3 grupos con tamaños de muestra iguales, la unión de la región de rechazo del 5% para las pruebas t por pares contiene la región de rechazo del 5% para la prueba F de ANOVAR, incluso cuando el tamaño de la muestra es muy grande.
Scortchi - Restablece a Monica
44
0.005F
44
Ameba, la confusión surge del hecho de que las "pruebas t por pares" pueden significar dos cosas. En el contexto ANOVA, generalmente se entenderá que significa contrastes post hoc utilizando las estimaciones ANOVA. Como otros han señalado, esto no es lo mismo que realizar la prueba t habitual en pares de grupos, porque la versión ANOVA se basa en una estimación de la varianza dentro del grupo derivada de todos los grupos.
whuber
2
Creo que has hecho un buen resumen. Me referí a la paradoja como "más fuerte" en el sentido de que cuando todas las pruebas se llevan a cabo en el marco de un único análisis ANOVA, uno (ingenuamente) esperaría que fueran internamente consistentes. (Cuando realiza dos conjuntos de pruebas que no están inherentemente relacionadas, no debería ser una gran sorpresa cuando dan resultados contradictorios: esto sucede a menudo). Tenemos que aceptar que es lógicamente consistente y estadísticamente válido para concluir ese grupo las medias varían significativamente sin encontrar diferencias entre pares específicos de grupos.
whuber
4

Resumen: Creo que esto es posible, pero muy, muy poco probable. La diferencia será pequeña, y si sucede, es porque se ha violado un supuesto (como la homocedasticidad de la varianza).

Aquí hay un código que busca tal posibilidad. Tenga en cuenta que incrementa la semilla en 1 cada vez que se ejecuta, de modo que la semilla se almacena (y la búsqueda a través de semillas es sistemática).

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

Buscando un R2 significativo y sin pruebas t no significativas, no he encontrado nada hasta una semilla de 18,000. Al buscar un valor p más bajo de R2 que de las pruebas t, obtengo un resultado en seed = 323, pero la diferencia es muy, muy pequeña. Es posible que ajustar los parámetros (¿aumentar el número de grupos?) Pueda ayudar. La razón por la que el valor p de R2 puede ser menor es que cuando se calcula el error estándar para los parámetros en la regresión, todos los grupos se combinan, por lo que el error estándar de la diferencia es potencialmente menor que en la prueba t.

Me preguntaba si violar la heteroscedasticidad podría ayudar (por así decirlo). Lo hace. Si yo uso

y <- (rnorm(600) + x * 0.01) * x * 5

Para generar la y, entonces encuentro un resultado adecuado en seed = 1889, donde el valor p mínimo de las pruebas t es 0.061 y el valor p asociado con R cuadrado es 0.046.

Si varío el tamaño del grupo (lo que aumenta el efecto de violación de la heterocedasticidad), reemplazando el muestreo x con:

x <- sample(c(0:5), 100, replace=TRUE)

Obtengo un resultado significativo en seed = 531, con el valor p mínimo de la prueba t en 0.063 y el valor p para R2 en 0.046.

Si dejo de corregir la heterocedasticidad en la prueba t, usando:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

Mi conclusión es que es muy poco probable que esto ocurra, y es probable que la diferencia sea muy pequeña, a menos que haya violado el supuesto de homocedasticidad en la regresión. Intente ejecutar su análisis con un sólido / sandwich / como quiera llamarlo corrección.

Jeremy Miles
fuente
Parece que tiene una oración sin terminar que comienza con "Si dejo de corregir la heterocedasticidad en la prueba t". Aparte de eso, muchas gracias! Por favor, vea mi actualización de la pregunta. También tenga en cuenta el primer comentario de @ whuber aquí; si entiendo correctamente, insiste en que tal situación puede suceder fácilmente (?) (y lo llama "bien conocido"). Tal vez hay algún malentendido aquí, pero ¿qué es?
ameba dice Reinstate Monica
Creo que @whuber está hablando de parámetros no significativos en el modelo, no de pruebas t no significativas.
Jeremy Miles
No, no lo es. Si es bien conocido, no lo sé y he tratado de encontrar un ejemplo, y no puedo.
Jeremy Miles
1
Me alegra, entonces, que @Glen_b haya producido un ejemplo simple. La intuición es que la prueba general evalúa si existe evidencia de que la propagación en las medias grupales no puede explicarse razonablemente solo por la varianza residual. Las pruebas por pares, que involucran solo dos medios a la vez, tienen que ser considerablemente más conservadoras al evaluar la misma evidencia. Por lo tanto, incluso comparar las dos medias de grupo extremo puede no descubrir una diferencia significativa cuando la distribución general de todas las medias es significativa. Esto a veces ocurre en la práctica, especialmente con un gran número de grupos.
whuber
3
Por cierto, la razón para llamar a esto "bien conocido" proviene de mi recuerdo de haber sido advertido al respecto en el manual del software Systat c. 1989. Era un manual muy instructivo (la mayoría escrito personalmente por Leland Wilkinson , el desarrollador) y probablemente todavía lo sea. El manual está en línea, pero debe registrarse en el sitio de Systat para poder descargarlo.
whuber
2

Es completamente posible:

  • Una o más pruebas t por pares son significativas, pero la prueba F general no lo es
  • La prueba F general es significativa, pero ninguna de las pruebas t por pares es

La prueba F general prueba todos los contrastes simultáneamente . Como tal, debe ser menos sensible (menos poder estadístico) a los contrastes individuales (por ejemplo, una prueba por pares). Las dos pruebas están estrechamente relacionadas entre sí, pero no informan exactamente lo mismo.

Como puede ver, la recomendación del libro de texto de no hacer comparaciones planificadas a menos que la prueba F general sea significativa no siempre es correcta. De hecho, la recomendación puede evitar que encontremos diferencias significativas porque la prueba F general tiene menos potencia que las comparaciones planificadas para probar las diferencias específicas.

SmallChess
fuente
No estoy seguro de seguir la lógica de su respuesta. ¿Está diciendo que el rechazo de H0 por una prueba F implica que hay al menos un contraste distinto de cero, pero este contraste podría no corresponder a ninguna de las comparaciones por pares? Si es así, ¿significa esto que si una prueba F rechaza H0, entonces al menos una de las pruebas por pares en todos los contrastes posibles también conducirá a un rechazo?
ameba dice Reinstate Monica
@amoeba He editado mi respuesta.
SmallChess