¿Cómo usar anova para la comparación de dos modelos?

9

¿Cómo debo entender el anovaresultado al comparar dos modelos?

Ejemplo:

  Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
1      9 54.032                                  
2      7  4.632  2      49.4 37.329 0.0001844 ***

La página de manual dice: "Calcular las tablas de análisis de varianza (o desviación) para uno o más objetos de modelo ajustados". Sin embargo, nuestro profesor mencionó que puede emplearse para la comparación de modelos, eso es lo que pretendo hacer.

Por lo tanto, supongo que podría usar anova(model1, model2)y obtener un valor p que me indica si debería rechazar la hipótesis nula: "los modelos son iguales".

¿Puedo decir que si el valor p es menor que (digamos) 0.05, los modelos difieren significativamente?

petrbel
fuente
En su ejemplo, ¿están anidados model1 y model2? Es decir, ¿ambos modelos tienen un conjunto compartido de variables predictoras y la misma variable de resultado, pero un modelo tiene una o más variables predictoras adicionales?
EdM
Uno es como Y ~ X + X^2y el segundoY ~ X + X^2 + X^3
petrbel

Respuestas:

13

Suponiendo que sus modelos están anidados (es decir, la misma variable de resultado y el modelo 2 contiene todas las variables del modelo 1 más 2 variables adicionales), los resultados de ANOVA indican que las 2 variables adicionales en conjunto representan suficiente varianza para que pueda rechazar la hipótesis nula de que el coeficientes para ambas variables equivalen a 0. Esto es efectivamente lo que usted dijo. Si ambos coeficientes son iguales a 0, entonces los modelos son iguales.

Solo como una nota adicional, en caso de que no lo supiera, ANOVA siempre es equivalente a hacer comparaciones de modelos. Cuando mira el ANOVA para un solo modelo, le proporciona los efectos para cada variable predictiva. Eso es equivalente a hacer una comparación de modelo entre su modelo completo y un modelo que elimina una de las variables. es decir, le dará la suma de cuadrados (tipo III) y la estadística de prueba para . Solo tenga en cuenta que R le da el tipo I suma de cuadrados. Si necesita el tipo III, use o use y siga cambiando el orden de las variables en el modelo y solo tome la suma de cuadrados para la última variable.Model1:y=a+bx1+cx2+dx3;Model2:y=a+bx1+cx2x3car::Anovaanova

le_andrew
fuente
Si lo entendí bien, el valor p menor que 0.05 prueba que los modelos difieren, ¿ajustados?
petrbel
3
No usaría esas palabras (es decir, "probar" y "los modelos difieren"), pero queremos decir lo mismo. Diría que sus datos no respaldan la hipótesis nula de que los coeficientes son ambos 0 o que los datos respaldan la hipótesis alternativa de que los coeficientes no son ambos 0.
le_andrew
1
Antes de hacer una afirmación de que se demuestra que los modelos son diferentes o que la hipótesis nula no es compatible, asegúrese de que los datos cumplan razonablemente los supuestos de ANOVA que subyacen al cálculo e interpretación de los valores p.
EdM
Solo para estar seguro, la última parte sobre la suma de cuadrados de tipo I solo se aplica a la situación en la que anova()se usa en un modelo.
Jasper