Elegir el rango y la densidad de la cuadrícula para el parámetro de regularización en LASSO

Mientras tanto, estoy estudiando LASSO (operador de selección y contracción menos absoluta). Veo que el valor óptimo para el parámetro de regularización se puede elegir mediante validación cruzada. También veo en la regresión de crestas y en muchos métodos que aplican la regularización, podemos usar CV para encontrar el parámetro de regularización óptimo (que dice penalización). Ahora mi pregunta es sobre los valores iniciales para el límite superior e inferior del parámetro y cómo determinar la longitud de la secuencia.

Para ser específicos, supongamos que tenemos un problema LASSO y queremos encontrar el valor óptimo para la penalización, . Entonces, ¿cómo podemos elegir un límite inferior y superior para ? y cuántas divisiones entre estos dos valores ?

L o g L i k e l i h o o d = (y - x β)^{'} (y - x β) + λ \sum | β |_{1}

$LogLikelihood = (y-x\beta)'(y-x\beta) + \lambda \sum|\beta|_1$

λ

$\lambda$

λ \in [a = ?, b = ?]

$\lambda \in [a=?,b=?]$

\frac{(b - a)}{k = ?}

$\frac{(b-a)}{k=?}$

lasso regularization shrinkage TPArrow
fuente

Pregunta relacionada aquí .

Richard Hardy

Posible duplicado de la finura y el sobreajuste

Sycorax dice Reinstate Monica el

Esta metodología se describe en el documento glmnet Rutas de regularización para modelos lineales generalizados a través del descenso coordinado . Aunque la metodología aquí es para el caso general de regularización tanto como , también debería aplicarse al LASSO (solo ). $L^1$ $L^2$ $L^1$

La solución para el máximo se da en la sección 2.5. $\lambda$

Cuando , vemos en (5) que permanecerá cero si . Por lo tanto, $\tilde\beta = 0$ $\tilde\beta_j$ $\frac{1}{N} | \langle x_j , y \rangle | < \lambda \alpha$ $N \alpha \lambda_{max} = \max_l | \langle x_l , y \rangle |$

Es decir, observamos que la regla de actualización para beta obliga a todas las estimaciones de parámetros a cero para como se determinó anteriormente. $\lambda > \lambda_{max}$

La determinación de y el número de puntos de la cuadrícula parece tener menos principios. En glmnet establecen , y luego eligen una cuadrícula de puntos igualmente espaciados en la escala logarítmica. $\lambda_{min}$ $\lambda_{min} = 0.001 * \lambda_{max}$ $100$

Esto funciona bien en la práctica, en mi uso extenso de glmnet nunca he encontrado que esta cuadrícula sea demasiado gruesa.

En el caso LASSO ( ) solo las cosas funcionan mejor, ya que el método LARS proporciona un cálculo preciso para cuando los diversos predictores entran en el modelo. Un verdadero LARS no realiza una búsqueda de cuadrícula sobre , sino que produce una expresión exacta para las rutas de solución para los coeficientes. Aquí hay una mirada detallada al cálculo exacto de las rutas de coeficientes en el caso de dos predictores. $L^1$ $\lambda$

El caso de los modelos no lineales (es decir, logística, poisson) es más difícil. En un nivel alto, primero se obtiene una aproximación cuadrática a la función de pérdida en los parámetros iniciales , y luego el cálculo anterior se usa para determinar . En estos casos, no es posible un cálculo preciso de las rutas de parámetros, incluso cuando solo se proporciona la regularización , por lo que una búsqueda de cuadrícula es la única opción. $\beta = 0$ $\lambda_{max}$ $L^1$

Los pesos de muestra también complican la situación, los productos internos deben reemplazarse en lugares apropiados con productos internos ponderados.

Matthew Drury
fuente

Elegir el rango y la densidad de la cuadrícula para el parámetro de regularización en LASSO

Respuestas: