Una de las motivaciones para la red elástica fue la siguiente limitación de LASSO:
En el caso , el lazo selecciona como máximo n variables antes de saturarse, debido a la naturaleza del problema de optimización convexa. Esto parece ser una característica limitante para un método de selección variable. Además, el lazo no está bien definido a menos que el límite en la norma L1 de los coeficientes sea menor que un cierto valor.
( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )
Entiendo que LASSO es un problema de programación cuadrática, pero también se puede resolver a través de LARS o el descenso de gradiente por elementos. Pero no entiendo dónde en estos algoritmos encuentro un problema si donde es el número de predictores es el tamaño de la muestra. ¿Y por qué este problema se resuelve usando una red elástica donde aumento el problema a variables que claramente exceden .
fuente
Respuestas:
Como se dijo, esto no es una propiedad de un algoritmo sino del problema de optimización. Las condiciones KKT básicamente dan que para que el coeficiente sea distinto de cero, debe corresponder a una correlación fija con el residual | X t j ( y - X β ) | = λ ( λ es el parámetro de regularización).βj |Xtj(y−Xβ)|=λ λ
Después de resolver las diversas complicaciones con un valor absoluto, etc., le queda una ecuación lineal para cada coeficiente distinto de cero. Como el rango de la matriz es como máximo n cuando p > n , este es el número de ecuaciones que se pueden resolver y, por lo tanto, hay como máximo n no ceros (a menos que haya redundancias).X n p>n
Por cierto, esto es cierto para cualquier función de pérdida, no solo el lazo estándar con pérdida de . Por lo tanto, es una propiedad de la pena de lazo. Hay muchos documentos que muestran esta visión de KKT y las conclusiones resultantes, puedo señalar nuestro artículo: Rosset y Zhu, Pathwise Linear Regularized Solutions Paths, Annals of Stats 2007 y referencias allí.L2
fuente
ha disminuido.
fuente