Interpretación de la salida del paso en R

11

En R, el stepcomando supuestamente tiene la intención de ayudarlo a seleccionar las variables de entrada para su modelo, ¿verdad?

Lo siguiente viene de example(step)#-> swiss& step(lm1)

> step(lm1)
Start:  AIC=190.69
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality

                   Df Sum of Sq    RSS    AIC
- Examination       1     53.03 2158.1 189.86
<none>                          2105.0 190.69
- Agriculture       1    307.72 2412.8 195.10
- Infant.Mortality  1    408.75 2513.8 197.03
- Catholic          1    447.71 2552.8 197.75
- Education         1   1162.56 3267.6 209.36

Step:  AIC=189.86
Fertility ~ Agriculture + Education + Catholic + Infant.Mortality

                   Df Sum of Sq    RSS    AIC
<none>                          2158.1 189.86
- Agriculture       1    264.18 2422.2 193.29
- Infant.Mortality  1    409.81 2567.9 196.03
- Catholic          1    956.57 3114.6 205.10
- Education         1   2249.97 4408.0 221.43

Call:
lm(formula = Fertility ~ Agriculture + Education + Catholic +     Infant.Mortality, data = swiss)

Coefficients:
     (Intercept)       Agriculture         Education  
         62.1013           -0.1546           -0.9803  
        Catholic  Infant.Mortality  
          0.1247            1.0784  

Ahora, cuando miro esto, supongo que la última tabla de pasos es el modelo que debemos usar. Las últimas líneas incluyen la función "Llamada", que describe el modelo real y qué variables de entrada incluye, y los "Coeficientes" son las estimaciones de parámetros reales para estos valores, ¿verdad? Entonces este es el modelo que quiero, ¿verdad? Estoy tratando de extrapolar esto a mi proyecto, donde hay más variables.

gakera
fuente

Respuestas:

7

La tabla del último paso es, de hecho, el resultado final de la "regresión por pasos". La advertencia aquí es que, por lo general, no desea utilizar este enfoque cuando hay una forma de principios para abordar la especificación de su modelo. La llamada es la llamada lm que produciría la ecuación utilizada en el paso final. Los coeficientes son las estimaciones reales de los parámetros. Es notable que debido a que no definió un paso de parámetro de alcance o dirección predeterminado en un enfoque de paso 'hacia atrás', en el que los términos variables se evalúan para caer en cada paso, en cada paso si al soltar la variable seleccionada disminuye la AIC, se elimina desde el modelo y todo el proceso se repite hasta que no se puede descartar una sola variable. En su ejemplo en el paso final Fertilidad ~ Agricultura + Educación + Católica + Infantil.

russellpierce
fuente
2

La parte de la impresión al final es el modelo que le queda. También puede obtenerlo si captura el valor de la stepfunción:

final.mod <- step(lm1)
final.mod
Aniko
fuente