Para la regresión Lasso suponga que la mejor solución (error de prueba mínimo, por ejemplo) selecciona k características, para que \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lazo}, 0, ... 0 \ derecha) .k β l un s s o = ( β l un s s o 1 , β l un s s o 2 , . . . , β l una
Sabemos que es un estimación sesgada de , entonces, ¿por qué todavía tomamos como la solución final, en lugar de la más 'razonable' , donde es la estimación de LS del modelo parcial . ( denota las columnas de correspondientes a las características seleccionadas).
En resumen, ¿por qué usamos Lasso tanto para la selección de características como para la estimación de parámetros, en lugar de solo para la selección de variables (y dejar la estimación de las características seleccionadas a OLS)?
(Además, ¿qué significa que 'Lasso puede seleccionar como máximo características'? es el tamaño de la muestra).
fuente
Respuestas:
No creo que haya nada malo en usar LASSO para la selección de variables y luego usar OLS. De " Elementos del aprendizaje estadístico " (pág. 91)
Otro enfoque razonable similar en espíritu al lazo relajado, sería usar el lazo una vez (o varias veces en conjunto) para identificar un grupo de variables predictoras candidatas. Luego use la mejor regresión de subconjuntos para seleccionar las mejores variables predictoras a considerar (también vea "Elementos de aprendizaje estadístico" para esto). Para que esto funcione, necesitará refinar el grupo de predictores candidatos a alrededor de 35, lo que no siempre será factible. Puede utilizar la validación cruzada o AIC como criterio para evitar un ajuste excesivo.
fuente
Si su objetivo es un rendimiento óptimo en la muestra (wrt R-cuadrado más alto), simplemente use OLS en cada variable disponible. La caída de variables disminuirá R-cuadrado.
Si su objetivo es un buen rendimiento fuera de la muestra (que generalmente es lo que es mucho más importante), entonces su estrategia propuesta sufrirá dos fuentes de sobreajuste:
El propósito de LASSO es reducir las estimaciones de los parámetros hacia cero para luchar por encima de dos fuentes de sobreajuste. Las predicciones dentro de la muestra siempre serán peores que las MCO, pero la esperanza es (dependiendo de la fuerza de la penalización) para obtener un comportamiento más realista fuera de la muestra.
Con respecto a : Esto (probablemente) depende de la implementación de LASSO que esté utilizando. Una variante, Lars (regresión de ángulo mínimo), funciona fácilmente para p > n .p>n p>n
fuente
Con respecto a la pregunta de los OP de por qué Lasso puede seleccionar como máximo n funciones:
fuente