Si p> n, el lazo selecciona como máximo n variables

13

Una de las motivaciones para la red elástica fue la siguiente limitación de LASSO:

En el caso , el lazo selecciona como máximo n variables antes de saturarse, debido a la naturaleza del problema de optimización convexa. Esto parece ser una característica limitante para un método de selección variable. Además, el lazo no está bien definido a menos que el límite en la norma L1 de los coeficientes sea menor que un cierto valor.p>n

( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )

Entiendo que LASSO es un problema de programación cuadrática, pero también se puede resolver a través de LARS o el descenso de gradiente por elementos. Pero no entiendo dónde en estos algoritmos encuentro un problema si donde es el número de predictores es el tamaño de la muestra. ¿Y por qué este problema se resuelve usando una red elástica donde aumento el problema a variables que claramente exceden .p>npnp+np

usuario1137731
fuente
2
Si el lazo restringe el uso para mantener p <= n, ¿por qué es un inconveniente en lugar de una virtud? El sobreajuste es un problema grave que surge cuando p = n. El modelo con p = n es un modelo saturado y, a menudo, ese modelo se sobreajusta porque se ajustará perfectamente a los datos observados, pero no necesariamente predice bien los casos futuros.
Michael R. Chernick
3
El hecho de que el lazo seleccione solo hasta variables puede verse como una consecuencia del hecho de que puede resolverse utilizando (una ligera modificación) el algoritmo LARS, que solo admite hasta variables en el conjunto activo en cualquier momento. Que esto no se cumple en el caso de red elástica se deriva esencialmente de la incorporación de la penalización y, por lo tanto, se comporta más como una regresión de cresta, la última de las cuales normalmente da como resultado que todos los coeficientes sean distintos de cero. n 2nn2
cardenal
Gracias por las respuestas, y cómo vería para el descenso de gradiente que, como máximo, se puedan seleccionar n variables: Presentación en cs.cmu.edu/afs/cs/project/link-3/lafferty/www/ml-stat2/talks/ … Documento (sección 4) en datamining.dongguk.ac.kr/papers/GLASSO_JRSSB_V1.final.pdf
user1137731
3
@usuario: Creo que puede estar combinando el problema matemático con su solución numérica. El algoritmo LARS muestra que la solución de lazo seleccionará como máximo variables. Esto es independiente de los medios numéricos reales para llegar a la solución, es decir, el algoritmo LARS ofrece información sobre el problema, pero, por supuesto, ¡cualquier otro método que resuelva el problema de manera equivalente debe tener la misma propiedad! :-)n
cardenal
Considere una característica duplicada veces. Existirá un estimador de lazo con exactamente p no cero (incluso si p > n ) Por lo tanto, su afirmación no es verdadera como está escrita. ppp>n
user795305

Respuestas:

10

Como se dijo, esto no es una propiedad de un algoritmo sino del problema de optimización. Las condiciones KKT básicamente dan que para que el coeficiente sea ​​distinto de cero, debe corresponder a una correlación fija con el residual | X t j ( y - X β ) | = λ ( λ es el parámetro de regularización).βj|Xjt(yXβ)|=λλ

Después de resolver las diversas complicaciones con un valor absoluto, etc., le queda una ecuación lineal para cada coeficiente distinto de cero. Como el rango de la matriz es como máximo n cuando p > n , este es el número de ecuaciones que se pueden resolver y, por lo tanto, hay como máximo n no ceros (a menos que haya redundancias).Xnp>n

Por cierto, esto es cierto para cualquier función de pérdida, no solo el lazo estándar con pérdida de . Por lo tanto, es una propiedad de la pena de lazo. Hay muchos documentos que muestran esta visión de KKT y las conclusiones resultantes, puedo señalar nuestro artículo: Rosset y Zhu, Pathwise Linear Regularized Solutions Paths, Annals of Stats 2007 y referencias allí.L2

Saharon Rosset
fuente
¿Qué significa KKT? Además, ¿es posible que se refiera a la pérdida de L1 cuando habla del lazo estándar?
miura
Hola Saharon y bienvenidos al sitio. Puede usar LaTeX para que las fórmulas sean más ordenadas (lo hice en su respuesta) y no necesita firmar sus publicaciones, ya que una firma se agrega automáticamente.
Peter Flom - Restablece a Monica
1
@miura: KKT significa Karush-Kuhn-Tucker. Las condiciones de KKT son ciertas ecuaciones que las soluciones a problemas de optimización (suficientemente regulares) deben cumplir ( artículo de Wikipedia ).
mogron
Solo veo que Ryan Tibshirani tiene un documento de trabajo muy relevante 'El problema del lazo y la unicidad': stat.cmu.edu/~ryantibs/papers/lassounique.pdf
user1137731
6

n<pXnpnzβpnpβ+zn βj

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

ha disminuido.

usuario2969758
fuente
(+1) Hay una brecha aquí: vea mi comentario en la publicación de OP.
user795305