Elegir el rango y la densidad de la cuadrícula para el parámetro de regularización en LASSO

11

Mientras tanto, estoy estudiando LASSO (operador de selección y contracción menos absoluta). Veo que el valor óptimo para el parámetro de regularización se puede elegir mediante validación cruzada. También veo en la regresión de crestas y en muchos métodos que aplican la regularización, podemos usar CV para encontrar el parámetro de regularización óptimo (que dice penalización). Ahora mi pregunta es sobre los valores iniciales para el límite superior e inferior del parámetro y cómo determinar la longitud de la secuencia.

Para ser específicos, supongamos que tenemos un problema LASSO y queremos encontrar el valor óptimo para la penalización, . Entonces, ¿cómo podemos elegir un límite inferior y superior para ? y cuántas divisiones entre estos dos valores ?

LogLikelihood=(yxβ)(yxβ)+λ|β|1
λλ[a=?,b=?](ba)k=?
TPArrow
fuente
Pregunta relacionada aquí .
Richard Hardy
Posible duplicado de la finura y el sobreajuste
Sycorax dice Reinstate Monica el

Respuestas:

12

Esta metodología se describe en el documento glmnet Rutas de regularización para modelos lineales generalizados a través del descenso coordinado . Aunque la metodología aquí es para el caso general de regularización tanto como , también debería aplicarse al LASSO (solo ).L1L2L1

La solución para el máximo se da en la sección 2.5. λ

Cuando , vemos en (5) que permanecerá cero si . Por lo tanto,β~=0β~j1N|xj,y|<λαNαλmax=maxl|xl,y|

Es decir, observamos que la regla de actualización para beta obliga a todas las estimaciones de parámetros a cero para como se determinó anteriormente.λ>λmax

La determinación de y el número de puntos de la cuadrícula parece tener menos principios. En glmnet establecen , y luego eligen una cuadrícula de puntos igualmente espaciados en la escala logarítmica.λminλmin=0.001λmax100

Esto funciona bien en la práctica, en mi uso extenso de glmnet nunca he encontrado que esta cuadrícula sea demasiado gruesa.

En el caso LASSO ( ) solo las cosas funcionan mejor, ya que el método LARS proporciona un cálculo preciso para cuando los diversos predictores entran en el modelo. Un verdadero LARS no realiza una búsqueda de cuadrícula sobre , sino que produce una expresión exacta para las rutas de solución para los coeficientes. Aquí hay una mirada detallada al cálculo exacto de las rutas de coeficientes en el caso de dos predictores.L1λ

El caso de los modelos no lineales (es decir, logística, poisson) es más difícil. En un nivel alto, primero se obtiene una aproximación cuadrática a la función de pérdida en los parámetros iniciales , y luego el cálculo anterior se usa para determinar . En estos casos, no es posible un cálculo preciso de las rutas de parámetros, incluso cuando solo se proporciona la regularización , por lo que una búsqueda de cuadrícula es la única opción.β=0λmaxL1

Los pesos de muestra también complican la situación, los productos internos deben reemplazarse en lugares apropiados con productos internos ponderados.

Matthew Drury
fuente