Comparar dos modelos usando la función anova () en R

32

De la documentación para anova():

Cuando se le da una secuencia de objetos, 'anova' prueba los modelos uno contra el otro en el orden especificado ...

¿Qué significa probar los modelos uno contra el otro? ¿Y por qué importa el orden?

Aquí hay un ejemplo del tutorial de GenABEL :

    >  modelAdd = lm(qt~as.numeric(snp1))
    >  modelDom = lm(qt~I(as.numeric(snp1)>=2))
    >  modelRec = lm(qt~I(as.numeric(snp1)>=3))
     anova(modelAdd, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ as.numeric(snp1)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2320                      
    2   2371 2320  1    0.0489     0.82
     anova(modelDom, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 2)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)
    1   2372 2322                      
    2   2371 2320  1      1.77     0.18
     anova(modelRec, modelGen, test="Chisq")
    Analysis of Variance Table

    Model 1: qt ~ I(as.numeric(snp1) >= 3)
    Model 2: qt ~ snp1
      Res.Df  RSS Df Sum of Sq Pr(>Chi)  
    1   2372 2324                        
    2   2371 2320  1      3.53    0.057 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

¿Cómo interpreto esta salida?

qed
fuente

Respuestas:

31

Cuando lo usa anova(lm.1,lm.2,test="Chisq"), realiza la prueba de Chi-cuadrado para comparar lm.1y lm.2(es decir, prueba si la reducción en la suma residual de cuadrados es estadísticamente significativa o no). Tenga en cuenta que esto solo tiene sentido si lm.1y lm.2son modelos anidados.

α=0.05α=0.1

Echa un vistazo a ANOVA para modelos lineales también.

Stat
fuente
1
¿Pero eso implica algo sobre si uno de los dos es mejor? ¡Gracias!
qed
55
Depende de cómo se defina el término "mejor". Si lo define como el modelo que proporciona menos suma residual de cuadrados, entonces la respuesta es sí. Esto se debe a que esta prueba compara la reducción en la suma residual de cuadrados.
Estadísticas
3
Por otro lado, si los dos modelos no son significativamente diferentes, ¿se podría argumentar que el modelo más simple es "mejor"? Estoy pensando en el parcimony aquí.
Sininho
1
¿Qué pasa si el anova (mod1, mod2, test = "LRT") cuál es la diferencia?
ElleryL