¿Cómo se escala Lasso con el tamaño de la matriz de diseño?

10

Si tengo un diseño de matriz , donde n es el número de observaciones de dimensión d , lo que es la complejidad de la solución para β = argmin β 1XRnorte×renorterecon LASSO, wrtny? Creo que la respuesta debería referirse a cómounaiteración de LASSO se escala con estos parámetros, en lugar de cómo se escala el número de iteraciones (convergencia), a menos que sienta lo contrario.β^=argminβ12norteEl |El |Xβ-yEl |El |2+λEl |El |βEl |El |1nortere

He leído esta pregunta anterior de complejidad de LASSO , pero parece estar en desacuerdo con la discusión sobre glmnet aquí y aquí . Soy consciente de que existen muchos algoritmos, incluido el enfoque GLMnet de glmnet, pero estoy escribiendo un documento sobre el reemplazo de un componente LASSO a un algoritmo padre y me gustaría incluir una discusión sobre la complejidad de LASSO en general, especialmente con y . También me gustaría saber la complejidad de glmnet en el caso básico no disperso, pero el documento de referencia es un poco confuso ya que la complejidad del algoritmo no es explícita.renorte

rnoodle
fuente
3
No está claro por qué esta respuesta stats.stackexchange.com/a/190717/28666 (en el hilo al que se vinculó) no responde a su pregunta. ¿Puedes elaborar? ¿Qué está en desacuerdo con qué?
ameba
La página 6 en [pdf] [1], establece "Así, un ciclo completo a través de todas las variables d cuesta ". Sin embargo, la pregunta que vincula a los estados O ( d 2 n ) . ¿Me estoy perdiendo un bucle aquí para obtener la complejidad d 2 ? [1]: jstatsoft.org/article/view/v033i01O(renorte)O(re2norte)re2
rnoodle
@amoeba El enlace que proporciona es para el algoritmo LARS. Quiero saber sobre el enfoque GLM.
rnoodle
Las referencias, para la regresión de ángulo mínimo y O ( d n ) para el descenso coordinado, son correctas. La diferencia es que (1) LARS encuentra una solución exacta en O ( d 2 n ) (y lo hace atravesando todo el camino de λ posible con una complejidad igual al problema OLS para todo el problema, que también se escala como O ( d 2 n ) ), mientras que (2) el descenso coordinado está haciendo "solo" un solo paso de aproximación en O ( dO(re2norte)O(renorte)O(re2norte)λO(re2norte) , convergente / 'descendente' más cerca del mínimo del problema LASSO. LARS usa d pasos. Con descenso coordinado ... nadie lo sabe. O(renorte)re
Sextus Empiricus

Respuestas:

3

Las respuestas de las referencias,

  • para la regresión de ángulo mínimoO(re2norte)
  • para descenso coordinadoO(renorte)

son correctos


La diferencia es que

Las ecuaciones LARS se escriben en forma cerrada y encuentran una solución exacta

O(re2norte)

mientras

O(renorte)


reO((re-k)norte+k2)re-kk

re2nortererere>>100re=100


Escalar LARS es un problema que involucra complejidad computacional. El descenso de coordenadas de escala es un problema que involucra complejidad computacional y convergencia.

Sexto empírico
fuente