¿Es una variable significativa en un modelo de regresión lineal?

9

Tengo un modelo de regresión lineal con la muestra y las observaciones variables y quiero saber:

  1. Si una variable específica es lo suficientemente significativa como para permanecer incluida en el modelo.
  2. Si otra variable (con observaciones) debería incluirse en el modelo.

¿Qué estadísticas me pueden ayudar? ¿Cómo puede obtenerlos de manera más eficiente?

Wilhelm
fuente

Respuestas:

26

La significación estadística no suele ser una buena base para determinar si una variable debe incluirse en un modelo. Las pruebas estadísticas fueron diseñadas para probar hipótesis, no seleccionar variables. Sé que muchos libros de texto discuten la selección de variables usando pruebas estadísticas, pero este es generalmente un mal enfoque. Vea el libro de Harrell Estrategias de modelado de regresión para conocer algunas de las razones. En estos días, generalmente se prefiere la selección variable basada en el AIC (o algo similar).

Rob Hyndman
fuente
En realidad, a lo mejor de mi memoria, Harrell desalienta fuertemente el uso de AIC. Supongo que la validación cruzada probablemente sea el método más seguro.
Tal Galili
1
AIC es asintóticamente equivalente a CV. Ver las respuestas a stats.stackexchange.com/questions/577/… . Revisé a Harrell antes de escribir esa respuesta, y no vi ningún desánimo de la AIC. Advierte sobre las pruebas de significación después de la selección de variables, con el AIC o cualquier otro método.
Rob Hyndman el
@Tal: Quizás de uno de sus documentos en lugar del libro de RMS, recuerdo que Harrell se opuso al uso de AIC por simplemente elegir entre un grupo de muchos modelos. Creo que su punto era que debes agregar una variable a la vez y comparar dos modelos metódicamente o usar alguna estrategia similar. (Para ser claros, esto está en línea con la respuesta de Rob.)
ars
Haciendo una búsqueda rápida, encontré a Harrell escribiendo lo siguiente: "Tenga cuidado de hacer la selección del modelo sobre la base de valores P, R-cuadrado, R-cuadrado parcial, AIC, BIC, coeficientes de regresión o Cp de Mallows". Escribió eso el 14/12/08, en una lista de correo titulada [R] Obtención de valores p para coeficientes de la función LRM (diseño de paquete) - texto sin formato. Creo que entendí mal su significado.
Tal Galili el
2
@Tal, @Rob: En ese hilo, dice "Asegúrese de usar el principio de jerarquía". Quizás sea de interés, esta discusión de medstats (desplácese hacia abajo para obtener la respuesta de Harrell): groups.google.com/group/medstats/browse_thread/thread/…
ars
4

Secundo el comentario de Rob. Una alternativa cada vez más preferida es incluir todas sus variables y reducirlas a 0. Ver Tibshirani, R. (1996). Contracción de la regresión y selección a través del lazo.

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf

usuario603
fuente
1
¿Hay alguna forma de cuantificar lo que se "prefiere cada vez más" en estos días?
Tal Galili
Creo que se reconoce que es científicamente más correcto en muchos campos en el sentido de que el enfoque de contracción se usa más en documentos estadísticos aplicados recientemente que el enfoque * .IC. Eso muestra un cierto consenso teórico, al menos tácito.
user603
1
@ user603: también tiene la ventaja computacional potencialmente masiva con el enfoque de contracción. No hay necesidad de buscar más de modelos2pag
probabilityislogic
3

Para la parte 1, que está buscando la prueba F . Calcule su suma residual de cuadrados de cada ajuste del modelo y calcule una estadística F, que puede usar para encontrar valores p de una distribución F o alguna otra distribución nula que usted mismo genera.

Eric Suh
fuente
1

Otro voto para la respuesta de Rob.

También hay algunas ideas interesantes en la literatura de "importancia relativa". Este trabajo desarrolla métodos que buscan determinar cuánta importancia se asocia con cada uno de varios predictores candidatos. Hay métodos bayesianos y frequentistas. Consulte el paquete "relaimpo" en R para obtener citas y código.

Andrew Robinson
fuente
1

También me gusta la respuesta de Rob. Y, si utiliza SAS en lugar de R, puede usar PROC GLMSELECT para modelos que se harían con PROC GLM, aunque también funciona bien para algunos otros modelos. Ver

Flom y Cassell "Deteniéndose paso a paso: por qué los métodos de selección paso a paso son malos y qué debe usar" presentados en varios grupos, más recientemente, NESUG 2009

Peter Flom - Restablece a Monica
fuente