Interpretación de la salida drop1 en R

14

En R, el drop1comando genera algo ordenado.
Estos dos comandos deberían obtener algún resultado:
example(step)#-> swiss
drop1(lm1, test="F")

El mío se ve así:

> drop1(lm1, test="F")
Single term deletions

Model:
Fertility ~ Agriculture + Examination + Education + Catholic + 
    Infant.Mortality
                 Df Sum of Sq    RSS    AIC F value     Pr(F)    
<none>                        2105.0 190.69                      
Agriculture       1    307.72 2412.8 195.10  5.9934  0.018727 *  
Examination       1     53.03 2158.1 189.86  1.0328  0.315462    
Education         1   1162.56 3267.6 209.36 22.6432 2.431e-05 ***
Catholic          1    447.71 2552.8 197.75  8.7200  0.005190 ** 
Infant.Mortality  1    408.75 2513.8 197.03  7.9612  0.007336 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

¿Qúe significa todo esto? Supongo que las "estrellas" ayudan a decidir qué variables de entrada se deben mantener. Mirando el resultado anterior, quiero descartar la variable "Examen" y centrarme en la variable "Educación", ¿es correcta esta interpretación?

Además, el valor AIC, menor es mejor, ¿sí?

Ed. Tenga en cuenta la respuesta Wiki de la comunidad a continuación y agréguela si lo considera conveniente para aclarar este resultado.

gakera
fuente
77
la ayuda en R está destinada a explicarle cómo usar la función. No pretende ser un curso de estadísticas. Y con respecto a eso, en general creo que las páginas de ayuda de R están entre las más completas y prácticas de todos los paquetes de código abierto que conozco. Y pagando paquetes para el caso. SPSS y SAS le brindan mucho mumbo-jumbo con medias verdades y tonterías completas como una "guía para la interpretación".
Joris Meys
1
Esta pregunta ha sido rechazada. No tenía la intención de dar mi +1, pero ahora me parece que rechazarlo no es muy constructivo: (1) el OP deja en claro que esto es tarea y utiliza un conjunto de datos R incorporado para ilustración, no su datos, (2) una pregunta relacionada con step()ha sido calificada con +2 al momento de escribir este artículo (¿por qué ?!), (3) el OP reconoció la utilidad de la respuesta de @ Joris.
chl
@chl: parece que no soy el único con dedos sensibles cuando se trata de las páginas de ayuda de R :-). Pero estoy totalmente de acuerdo contigo. La pregunta es válida, formulada de manera clara y, por lo tanto, no hay absolutamente ninguna razón para rechazarla.
Joris Meys
Heh, lo siento si te puse de puntillas con mi desprecio por la ayuda, simplemente no soy muy paciente cuando se trata de algo con una línea de comando realmente. Soy raro de esa manera, lo sé. No serían los primeros en llamarme :) Me gusta este lugar, la gente es honesta.
gakera
Ahí vamos, edité la pregunta para que no sea tan desagradable para los defensores de R y la ayuda de R :) Y reformulé la pregunta en AIC para evitar engañar a los lectores de OP solamente.
gakera

Respuestas:

10

drop1le ofrece una comparación de modelos basada en el criterio AIC, y cuando usa la opción, test="F"le agrega un "ANOVA tipo II", como se explica en los archivos de ayuda . Siempre que solo tenga variables continuas, esta tabla es exactamente equivalente a summary(lm1), ya que los valores F son solo esos valores T al cuadrado. Los valores P son exactamente iguales.

Entonces, ¿qué hacer con él? Interpretarlo exactamente de esa manera: se expresa de una manera si el modelo sin ese término es "significativamente" diferente del modelo con ese término. Tenga en cuenta el "" alrededor significativamente, ya que el significado aquí no puede interpretarse como la mayoría de la gente piensa. (problema de prueba múltiple y todo ...)

Y con respecto al AIC: cuanto más bajo, mejor parece más. AIC es un valor que va para el modelo , no para la variable. Por lo tanto, el mejor modelo de esa salida sería el que no tenga el examen variable.

Eso sí, el cálculo de la estadística AIC y F es diferente de las funciones R AIC(lm1)resp. anova(lm1). Para AIC(), esa información se proporciona en las páginas de ayuda de extractAIC(). Para la anova()función, es bastante obvio que el tipo I y el tipo II SS no son lo mismo.

Estoy tratando de no ser grosero, pero si no entiendes lo que se explica en los archivos de ayuda allí, no deberías usar la función en primer lugar. La regresión paso a paso es increíblemente complicada, poniendo en peligro sus valores p de la manera más profunda. Así que de nuevo, no te bases en los valores p. Su modelo debe reflejar su hipótesis y no al revés.

Joris Meys
fuente
1
Me gusta este sentimiento, "si no entiendo lo que estoy haciendo, no debería tratar de aprenderlo ..." Este es también el enfoque adoptado en la ayuda de R: no es útil a menos que ya sepas lo que pasando Esperaba que esto pudiera ser el comienzo de algo diferente.
gakera
Pero puedo usar esta parte de su respuesta: "Inténtelo exactamente de esa manera: expresa si el modelo sin ese término es significativamente diferente del modelo con ese término". Para mí, esto significa que los valores de Pr (F) son la importancia de cada uno de estos términos, y un valor pequeño significa que esta variable es importante. Por lo tanto, un buen modelo debe incluir las variables "***" y no las que no tienen estrellas.
gakera
44
@gakera: Me entendiste mal. Si no comprende lo que está haciendo, definitivamente debe intentar aprenderlo antes de usarlo . Eso significa leer sobre estadísticas y seguir un curso. Por lo tanto, un buen modelo debe incluir las variables que se formulan en la hipótesis. Si se basa en las variables "***", primero necesita un curso completo sobre modelado. Obviamente no entendiste mi último comentario. Perdón por la comunicación directa, viene con el chico. Nada personal.
Joris Meys
@gakera: Actualicé mi respuesta para aclarar algunos puntos que son importantes. Principalmente porque malinterpretaste la parte que creías que podrías usar.
Joris Meys
Estoy aprendiendo haciendo, esta es tarea después de todo, nadie va a morir si no lo hago bien, los peces ya están muertos: P Gracias por la ayuda hasta ahora, y no te preocupes, esto no es mi primera vez en internet :)
gakera
4

Como referencia, estos son los valores que se incluyen en la tabla: se
Dfrefiere a Grados de libertad , "el número de grados de libertad es el número de valores en el cálculo final de una estadística que pueden variar libremente".

La Sum of Sqcolumna se refiere a la suma de cuadrados (o más precisamente la suma de desviaciones al cuadrado ). En resumen, esta es una medida de la cantidad que cada valor individual se desvía de la media general de esos valores.
RSSes la suma residual de cuadrados . Estas son una medida de cuánto varía el valor predicho de la variable dependiente (o de salida) del valor verdadero para cada punto de datos en el conjunto (o más coloquialmente: cada "línea" en la tabla de datos).

AICes el criterio de información de Akaike que generalmente se considera "demasiado complejo de explicar", pero es, en resumen, una medida de la bondad de ajuste de un modelo estadístico estimado. Si necesita más detalles, tendrá que recurrir a árboles muertos con palabras (es decir, libros). O Wikipedia y los recursos allí.

Se F valueutiliza para realizar lo que se llama una prueba F y de ella se deriva el Pr(F)valor, que describe qué tan probable (o Probable = Pr) es ese valor F. Un valor Pr (F) cercano a cero (indicado por ***) es indicativo de una variable de entrada que de alguna manera es importante incluir en un buen modelo, es decir, un modelo que no lo incluye es "significativamente" diferente al que Eso hace.

Todos estos valores, en el contexto del drop1comando, se calculan para comparar el modelo general (incluidas todas las variables de entrada) con el modelo resultante de eliminar esa variable específica por cada línea en la tabla de salida.

Ahora, si esto se puede mejorar, siéntase libre de agregarlo o aclarar cualquier problema. Mi objetivo es solo aclarar y proporcionar una mejor referencia de "búsqueda inversa" desde el resultado de un comando R al significado real del mismo.

gakera
fuente
@gakera Regresión práctica y Anova usando R es un buen punto de partida para comprender modelos lineales y métodos relacionados con variables / selección de modelos. Como señaló @Joris, la regresión gradual rara vez es la panacea.
chl
ja, gracias por agregar los enlaces @chl mientras mantengo mi descargo de responsabilidad de por qué no puedo publicarlos. Debes aceptar que soy un
asco
1
@gakera Creo que necesita tener más representantes para agregar más de un enlace por edición. Puedo entender que esto no es muy agradable al comenzar en un sitio web de preguntas y respuestas. Estaba asumiendo que eliminarías tu última oración tú mismo. Por otro lado, creo que no deberías esperar demasiados votos a favor para responder a tu propia pregunta, ya que es una especie de resumen '(aunque útil).
chl
No estoy haciendo esto para votos a favor (eso es tan Reddit: P): resumen útil es exactamente lo que estoy buscando, principalmente para mí, pero probablemente también sea útil para otros.
gakera
@gakera Estoy seguro de que esto no fue para obtener votos a favor. La mayoría de las veces, establecemos nuestra propia respuesta como Community Wiki (CW), cuando no agregan información adicional o contradictoria. Esta es una forma neutral de resumir o agregar las respuestas de los demás.
chl