Siempre tuve la impresión de que la regresión es solo una forma más general de ANOVA y que los resultados serían idénticos. Recientemente, sin embargo, ejecuté una regresión y un ANOVA en los mismos datos y los resultados difieren significativamente. Es decir, en el modelo de regresión, tanto los efectos principales como la interacción son significativos, mientras que en el ANOVA un efecto principal no es significativo. Espero que esto tenga algo que ver con la interacción, pero no me queda claro qué es diferente acerca de estas dos formas de modelar la misma pregunta. Si es importante, un predictor es categórico y el otro es continuo, como se indica en la simulación a continuación.
Aquí hay un ejemplo de cómo se ven mis datos y qué análisis estoy ejecutando, pero sin que los mismos valores o efectos p sean significativos en los resultados (mis resultados reales se describen anteriormente):
group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)
summary(lm(score~group*moderator))
summary(aov(score~group*moderator))
fuente
group
es un vector numérico, ¿es esto a propósito? Normalmente, los factores de agrupación deben tener clasefactor
, de modo que la transformación a contrastes pueda manejarse automáticamente mediante funciones comolm()
. Esto se hará evidente una vez que tenga más de dos grupos, o use una codificación que no sea 0/1 para sugroup
variable.Respuestas:
La
summary
función llama a diferentes métodos dependiendo de la clase del objeto. La diferencia no está en elaov
vslm
, sino en la información presentada sobre los modelos. Por ejemplo, si usóanova(mod1)
y en suanova(mod2)
lugar, debería obtener los mismos resultados.Como dice @Glen, la clave es si las pruebas informadas se basan en sumas de cuadrados Tipo 1 o Tipo 3. Estos diferirán cuando la correlación entre sus variables explicativas no sea exactamente 0. Cuando están correlacionadas, algunos SS son únicos para un predictor y otros para el otro, pero algunos SS pueden atribuirse a uno o ambos. ( Puede visualizar esto imaginando el símbolo de MasterCard- hay una pequeña región de superposición en el centro.) No hay una respuesta única en esta situación, y desafortunadamente, esta es la norma para los datos no experimentales. Un enfoque es que el analista use su juicio y asigne el SS superpuesto a una de las variables. Esa variable entra primero en el modelo. La otra variable entra en el modelo en segundo lugar y obtiene el SS que parece una cookie con una mordida sacada. Su efecto puede ser probado por lo que a veces se llamaR2 cambiar o cambiar F. Este enfoque utiliza el tipo 1 SS. Alternativamente, puede hacer esto dos veces con cada entrada primero e informar la prueba de cambio F para ambos predictores. De esta manera, ninguna variable obtiene el SS debido a la superposición. Este enfoque utiliza el tipo 3 SS. (También debería decirle que este último enfoque se tiene en baja consideración).
Siguiendo la sugerencia de @BrettMagill en el comentario a continuación, puedo intentar aclarar esto un poco. (Tenga en cuenta que, en mi ejemplo, estoy usando solo 2 predictores y ninguna interacción, pero esta idea se puede ampliar para incluir lo que quiera).
Tipo 1: SS (A) y SS (B | A)
Tipo 3: SS (A | B) y SS (B | A)
fuente
Los resultados de la salida aov le dan probabilidades basadas en la suma de cuadrados del Tipo 1. Es por eso que el resultado de la interacción es el mismo y los efectos principales difieren.
Si usa probabilidades basadas en la suma de cuadrados del Tipo 3, entonces coincidirán con los resultados de la regresión lineal.
fuente
Anova(..., type=3)
será no darle tipo correcto III SS, a menos que también cambia de contrastes de tratamiento (por defecto en R) a efecto de codificación para los factores no ordenadas (options(contrasts=c("contr.sum", "contr.poly"))
) o algunos otros códigos de contraste suma a cero (por ejemplo, Helmert). Esto se hará evidente una vez que tenga tamaños de celda desequilibrados y más de dos grupos y también se menciona en la página de ayudaAnova()
.La principal diferencia entre la regresión lineal y ANOVA es que, en ANOVA, las variables predictoras son discretas (es decir, tienen diferentes niveles). Mientras que en la regresión lineal, las variables predictoras son continuas.
fuente