Tengo un conjunto de datos con alrededor de 30 variables independientes y me gustaría construir un modelo lineal generalizado (GLM) para explorar la relación entre ellos y la variable dependiente.
Soy consciente de que el método que me enseñaron para esta situación, la regresión gradual, ahora se considera un pecado estadístico .
¿Qué métodos modernos de selección de modelos deberían usarse en esta situación?
Respuestas:
Hay varias alternativas a la regresión por pasos . Los más usados que he visto son:
Tanto la Regresión PLS como LASSO se implementan en paquetes R como
PLS : http://cran.r-project.org/web/packages/pls/ y
LARS : http://cran.r-project.org/web/packages/lars/index.html
Si solo desea explorar la relación entre su variable dependiente y las variables independientes (por ejemplo, no necesita pruebas de significación estadística), también recomendaría métodos de aprendizaje automático como bosques aleatorios o árboles de clasificación / regresión . Los bosques aleatorios también pueden aproximar relaciones complejas no lineales entre sus variables dependientes e independientes, que podrían no haber sido reveladas por técnicas lineales (como la regresión lineal ).
Un buen punto de partida para Machine Learning podría ser la vista de tareas de Machine Learning en CRAN:
Vista de tareas de aprendizaje automático : http://cran.r-project.org/web/views/MachineLearning.html
fuente
Otra opción que puede considerar para la selección y regularización de variables es la red elástica . Se implementa en R a través del paquete glmnet .
fuente
El promedio de modelos es un camino a seguir (un enfoque teórico de la información). El paquete R glmulti puede realizar modelos lineales para cada combinación de variables predictoras y realizar promedios de modelos para estos resultados.
Ver http://sites.google.com/site/mcgillbgsa/workshops/glmulti
Sin embargo, no olvide investigar primero la colinealidad entre las variables predictoras. Los factores de inflación de varianza (disponibles en el paquete R "auto") son útiles aquí.
fuente
MuMIn
,AICcmodavg
paquetes, aunqueglmulti
es más inteligente sobre los conjuntos de modelos grandes.@johannes dio una excelente respuesta. Si usted es un usuario de SAS, LASSO está disponible a través de PROC GLMSELECT y mínimos cuadrados parciales a través de PROC PLS.
David Cassell y yo hicimos una presentación sobre LASSO (y Regresión de ángulo mínimo) en un par de grupos de usuarios de SAS. Esta disponible aqui
fuente
Interesante discusión. Etiquetar la regresión escalonada como pecado estadístico es un poco una declaración religiosa, siempre y cuando uno sepa lo que está haciendo y que los objetivos del ejercicio sean claros, definitivamente es un buen enfoque con su propio conjunto de suposiciones y, ciertamente parcial, y no garantiza la optimización, etc. Sin embargo, lo mismo puede decirse de muchas otras cosas que hacemos. No he visto mencionar a CCA, que aborda el problema más fundamental de la estructura de correlación en el espacio covariable, garantiza la óptima, ha existido durante bastante tiempo y tiene una curva de aprendizaje. Se implementa en una variedad de plataformas, incluida R.
fuente