¿Cuáles son las alternativas modernas y fáciles de usar para la regresión gradual?

76

Tengo un conjunto de datos con alrededor de 30 variables independientes y me gustaría construir un modelo lineal generalizado (GLM) para explorar la relación entre ellos y la variable dependiente.

Soy consciente de que el método que me enseñaron para esta situación, la regresión gradual, ahora se considera un pecado estadístico .

¿Qué métodos modernos de selección de modelos deberían usarse en esta situación?

fmark
fuente
44
Otras personas mencionan procedimientos estadísticos que pueden ser útiles, pero primero le preguntaría si tiene alguna teoría sobre la fuerza y ​​la forma de la relación entre las variables. ¿Qué tan grande es tu muestra? ¿Tienes razones para evitar modelos complejos?
Michael Bishop
2
¿Alguien ha considerado el promedio de modelos como una alternativa para combatir el problema de sesgo de prueba previa y los problemas de especificación errónea? En términos generales, todas las variables son predictores potenciales, y puede estimar la probabilidad de que sean útiles. Por lo tanto, el estimador combinado no solo mejora el rendimiento del pronóstico, sino que también produce buenas estimaciones de propiedades para los parámetros de las variables bajo "alcance".
Dmitrij Celov
1
Contracción. Nadie usa paso a paso, con suerte
Aksakal

Respuestas:

56

Hay varias alternativas a la regresión por pasos . Los más usados ​​que he visto son:

  • Opinión de expertos para decidir qué variables incluir en el modelo.
  • Regresión de mínimos cuadrados parciales . Esencialmente obtienes variables latentes y haces una regresión con ellas. También puede hacer PCA usted mismo y luego usar las variables principales.
  • Operador de selección y contracción menos absoluta (LASSO).

Tanto la Regresión PLS como LASSO se implementan en paquetes R como

PLS : http://cran.r-project.org/web/packages/pls/ y

LARS : http://cran.r-project.org/web/packages/lars/index.html

Si solo desea explorar la relación entre su variable dependiente y las variables independientes (por ejemplo, no necesita pruebas de significación estadística), también recomendaría métodos de aprendizaje automático como bosques aleatorios o árboles de clasificación / regresión . Los bosques aleatorios también pueden aproximar relaciones complejas no lineales entre sus variables dependientes e independientes, que podrían no haber sido reveladas por técnicas lineales (como la regresión lineal ).

Un buen punto de partida para Machine Learning podría ser la vista de tareas de Machine Learning en CRAN:

Vista de tareas de aprendizaje automático : http://cran.r-project.org/web/views/MachineLearning.html

Johannes
fuente
10
El paquete glmnet es una implementación muy rápida del lazo también
David J. Harris
2
Advierto que dentro de la comunidad variable latente, los PLSers forman una camarilla muy aislada y nunca pudieron penetrar en la literatura seria (con lo que me refiero, por ejemplo, a la teoría asintótica de los estimadores de mínimos cuadrados en las obras de Michael Browne, Peter Bentler, Albert Satorra y Alex Shapiro, y el modelado instrumental variable de Ken Bollen, por nombrar los pocos más importantes). Sin embargo, por extraño que parezca, el PLS parece ser un método aceptable en los círculos estadísticos, que generalmente mantuvo un mayor nivel de rigor que la comunidad de modelado de variables latentes.
StasK
66
Los Elementos del aprendizaje estadístico tienen una comparación de diferentes métodos de selección y contracción de variables: (OLS,) mejor subconjunto, cresta, lazo, PLS, PCR.
cbeleites
19

Otra opción que puede considerar para la selección y regularización de variables es la red elástica . Se implementa en R a través del paquete glmnet .

Zach
fuente
16

El promedio de modelos es un camino a seguir (un enfoque teórico de la información). El paquete R glmulti puede realizar modelos lineales para cada combinación de variables predictoras y realizar promedios de modelos para estos resultados.

Ver http://sites.google.com/site/mcgillbgsa/workshops/glmulti

Sin embargo, no olvide investigar primero la colinealidad entre las variables predictoras. Los factores de inflación de varianza (disponibles en el paquete R "auto") son útiles aquí.

OliP
fuente
Gracias. ¿Realmente se ajusta a todos los modelos posibles? Incluso sin interacciones, se trata de mil millones de modelos en este caso.
Peter Ellis
AFAIK puede, pero hay una opción de algoritmo genético que disminuye considerablemente el tiempo que lleva evaluar todos los modelos. Ver www.jstatsoft.org/v34/i12/paper
OliP
3
también MuMIn, AICcmodavgpaquetes, aunque glmulties más inteligente sobre los conjuntos de modelos grandes.
Ben Bolker
8

@johannes dio una excelente respuesta. Si usted es un usuario de SAS, LASSO está disponible a través de PROC GLMSELECT y mínimos cuadrados parciales a través de PROC PLS.

David Cassell y yo hicimos una presentación sobre LASSO (y Regresión de ángulo mínimo) en un par de grupos de usuarios de SAS. Esta disponible aqui

Peter Flom - Restablece a Monica
fuente
7

Interesante discusión. Etiquetar la regresión escalonada como pecado estadístico es un poco una declaración religiosa, siempre y cuando uno sepa lo que está haciendo y que los objetivos del ejercicio sean claros, definitivamente es un buen enfoque con su propio conjunto de suposiciones y, ciertamente parcial, y no garantiza la optimización, etc. Sin embargo, lo mismo puede decirse de muchas otras cosas que hacemos. No he visto mencionar a CCA, que aborda el problema más fundamental de la estructura de correlación en el espacio covariable, garantiza la óptima, ha existido durante bastante tiempo y tiene una curva de aprendizaje. Se implementa en una variedad de plataformas, incluida R.

gillesc
fuente