LASSO / LARS vs método general a específico (GETS)

Me he estado preguntando, ¿por qué los métodos de selección de modelos LASSO y LARS son tan populares a pesar de que son básicamente variaciones de la selección progresiva (y por lo tanto sufren de dependencia de ruta)?

Del mismo modo, ¿por qué los métodos de General a Específico (GETS) para la selección de modelos se ignoran en su mayoría, a pesar de que funcionan mejor que LARS / LASSO porque no sufren el problema de regresión gradual? (referencia básica para GETS: http://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf : el algoritmo más nuevo en esto comienza con un modelo amplio y una búsqueda de árbol que evita la dependencia de la ruta, y se ha demostrado que a menudo lo hacen mejor que LASSO / LARS).

Simplemente parece extraño, LARS / LASSO parece tener mucha más exposición y citas que General a Específico (GETS), ¿alguien tiene alguna idea?

No tratando de iniciar un acalorado debate, más buscando una explicación racional de por qué la literatura parece centrarse en LASSO / LARS en lugar de GETS y pocas personas realmente señalan las deficiencias de LASSO / LARS.

feature-selection model-selection lasso stepwise-regression lars tortilla
fuente

¿Qué quieres decir con camino dependiente aquí? Además, ¿hay alguna referencia más autorizada que pueda dar para GETS? No estoy familiarizado con esto.

cardenal

Aquí hay una referencia mejor y más "autorizada" que también menciona a Lasso: degruyter.com/view/j/jtse.2011.3.1/jtse.2011.3.1.1097/… .

tortilla

También iba a agregar, lo que quise decir: así que agrega regresores significativos uno por uno, pero este enfoque no le permite eliminar uno si, en función de la correlación entre los regresores, uno puede volverse insignificante. Por lo tanto, una vez que se agrega uno, existe una dependencia de ruta de que este regresor ahora está configurado y no se puede descartar. ¿No es ese el caso?

tortilla

Es posible que las variables caigan a mitad de camino por el lazo si su trayectoria de coeficiente cruza cero a lo largo del camino. ¿Estás familiarizado con Efron et al. artículo original sobre LARS? Explica esto en considerable detalle con un agradable sabor geométrico.

cardenal

Creo que el lazo es popular porque relanza efectivamente el problema de selección del modelo de uno de prueba de hipótesis a uno de estimación de parámetros.

probabilityislogic

Respuestas:

Descargo de responsabilidad: solo estoy remotamente familiarizado con el trabajo de David F. Hendry sobre selección de modelos, entre otros. Sin embargo, sé por colegas respetados que Hendry ha hecho un progreso muy interesante en los problemas de selección de modelos dentro de la econometría. Para juzgar si la literatura estadística no está prestando suficiente atención a su trabajo en la selección del modelo, requeriría mucho más trabajo por mi parte.

Sin embargo, es interesante tratar de entender por qué un método o idea genera mucha más actividad que otros. No hay duda de que también hay aspectos de la moda en la ciencia. A mi modo de ver, el lazo (y sus amigos) tiene una gran ventaja de ser la solución de un problema de optimización muy fácil de expresar. Esto es clave para la comprensión teórica detallada de la solución y los algoritmos eficientes desarrollados. El reciente libro, Estadísticas de datos de alta dimensión de Bühlmann y Van De Geer, ilustra cuánto se sabe sobre el lazo.

Puede realizar estudios de simulación sin fin y, por supuesto, puede aplicar los métodos que considere más relevantes y adecuados para una aplicación en particular, pero para partes de la literatura estadística también se deben obtener resultados teóricos sustanciales. Ese lazo ha generado mucha actividad y refleja que hay preguntas teóricas que realmente pueden abordarse y que tienen soluciones interesantes.

Otro punto es que el lazo o variaciones no funcionan bien en muchos casos. Simplemente no estoy convencido de que sea correcto que el lazo sea superado tan fácilmente por otros métodos como sugiere el OP. Quizás en términos de selección de modelos (artificiales) pero no en términos de rendimiento predictivo. Ninguna de las referencias mencionadas parece comparar realmente Gets y lazo tampoco.

NRH
fuente

¿Por qué los métodos de selección de modelos LASSO y LARS son tan populares a pesar de que son básicamente variaciones de la selección progresiva?

Hay una diferencia entre la selección del subconjunto LASSO y (GETS): LASSO reduce los coeficientes hacia cero de una manera dependiente de los datos, mientras que la selección del subconjunto (GETS) no. Esto parece ser una ventaja de LASSO sobre la selección de subconjuntos (GETS), incluso si ocasionalmente puede fallar (necesita ajuste de parámetros, que normalmente se realiza mediante validación cruzada, y ocasionalmente podríamos sintonizar mal).

Los métodos (GETS) <...> funcionan mejor que LARS / LASSO

El rendimiento de GETS parece ser de calidad comparable a LASSO cuando lo realizan investigadores imparciales (?) (Aunque no necesariamente en los documentos donde se propone una nueva versión de GETS, pero eso es lo que cabría esperar); Vea algunas referencias en este hilo .

¿Quizás Sir Hendry & Co están obteniendo buenos resultados con GETS debido a los detalles de sus aplicaciones (principalmente modelos de series temporales macroeconómicas)? ¿Pero por qué podría ser eso? Esta es una pregunta separada .

Richard Hardy
fuente