¿Ventajas de hacer "doble lazo" o realizar dos veces lazo?

26

Una vez escuché un método de usar el lazo dos veces (como un lazo doble) en el que realizas un lazo en el conjunto original de variables, por ejemplo, S1, obtienes un conjunto disperso llamado S2 y luego vuelves a realizar el lazo en el conjunto S2 para obtener el conjunto S3 . ¿Existe un término metodológico para esto? Además, ¿cuáles son las ventajas de hacer el lazo dos veces?

Bstat
fuente

Respuestas:

23

Sí, el procedimiento que está pidiendo (o pensando) se llama lazo relajado .

La idea general es que en el proceso de realizar el LASSO por primera vez, probablemente se incluyen "variables de ruido"; realizar el LASSO en un segundo conjunto de variables (después del primer LASSO) da menos competencia entre las variables que son "competidores reales" para formar parte del modelo y no solo las variables de "ruido". Técnicamente, el objetivo de este método es superar la convergencia lenta (conocida) del LASSO en conjuntos de datos con gran número de variables.

Puede leer más al respecto en el documento original de Meinshausen (2007) .

También recomiendo la sección 3.8.5 sobre los Elementos de aprendizaje estadístico (Hastie, Tibshirani y Friedman, 2008) , que ofrece una visión general de otros métodos muy interesantes para realizar la selección de variables utilizando LASSO.

Néstor
fuente
¡Gracias! Definitivamente voy a ver el artículo de Meinshausen.
Bstat
19

La idea es separar los dos efectos del lazo

  1. Selección variable (es decir, muchos, incluso la mayoría, s son cero)β
  2. Contracción del coeficiente (es decir, incluso los valores no son cero son más pequeños, en valor absoluto, que en la regresión sin potencializar). Esto suele ser algo bueno, incluso sin selección, ya que evita el ajuste excesivo.β

Si tiene muchas variables ( ), y está ejecutando lazo, entonces desea tener una penalización grande para seleccionar una pequeña cantidad de variables. Sin embargo, esta penalización puede reducir demasiado las variables seleccionadas (no está ajustando correctamente).p>>n

La idea del lazo relajado es que separe los dos efectos: usa una penalización alta en el primer pase para seleccionar variables; y una penalización menor en el segundo pase para reducirlos en una cantidad menor.

El documento original (según lo vinculado por Néstor) da más detalles.

luispedro
fuente