¿Por qué usar las estimaciones de Lasso sobre las estimaciones de OLS en el subconjunto de variables identificado por Lasso?

26

Para la regresión Lasso suponga que la mejor solución (error de prueba mínimo, por ejemplo) selecciona k características, para que \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lazo}, 0, ... 0 \ derecha) .k β l un s s o = ( β l un s s o 1 , β l un s s o 2 , . . . , β l una

L(β)=(Xβy)(Xβy)+λβ1,
kβ^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)

Sabemos que (β^1lasso,β^2lasso,...,β^klasso) es un estimación sesgada de (β1,β2,...,βk) , entonces, ¿por qué todavía tomamos β^lasso como la solución final, en lugar de la más 'razonable' β^new=(β^1:knew,0,...,0) , donde β^1:knew es la estimación de LS del modelo parcial Lnew(β1:k)=(X1:kβy)(X1:kβy) . ( X1:k denota las columnas de X correspondientes a las k características seleccionadas).

En resumen, ¿por qué usamos Lasso tanto para la selección de características como para la estimación de parámetros, en lugar de solo para la selección de variables (y dejar la estimación de las características seleccionadas a OLS)?

(Además, ¿qué significa que 'Lasso puede seleccionar como máximo n características'? n es el tamaño de la muestra).

yliueagle
fuente
1
Esa es una muy buena pregunta. ¿Has probado algunas simulaciones para ver cuán diferentes serían los resultados del Lazo estándar si lo intentaras a tu manera?
Placidia
3
¿Entendiste el propósito de la "Contracción" en LASSO?
Michael M
66
La idea es reducir las estimaciones de coeficientes precisamente porque ha elegido las más grandes. Las estimaciones de mínimos cuadrados ya no son imparciales cuando ha realizado la selección de características de antemano.
Scortchi - Restablece a Monica
2
Consulte la siguiente pregunta para obtener una excelente respuesta a "¿Qué problema resuelven los métodos de contracción?" stats.stackexchange.com/questions/20295/…
DL Dahly
2
Para ser claros: no decir que @Scortchi está mal, pero esto es un poco gris cuando se trata de la selección de funciones, y creo que este es un punto técnico importante que debe quedar muy claro.
JohnA

Respuestas:

27

No creo que haya nada malo en usar LASSO para la selección de variables y luego usar OLS. De " Elementos del aprendizaje estadístico " (pág. 91)

... la contracción del lazo provoca que las estimaciones de los coeficientes distintos de cero estén sesgadas hacia cero y, en general, no son consistentes [ Nota adicional: Esto significa que, a medida que aumenta el tamaño de la muestra, las estimaciones de los coeficientes no convergen] . Un enfoque para reducir este sesgo es ejecutar el lazo para identificar el conjunto de coeficientes distintos de cero y luego ajustar un modelo lineal no restringido al conjunto de características seleccionado. Esto no siempre es factible si el conjunto seleccionado es grande. Alternativamente, uno puede usar el lazo para seleccionar el conjunto de predictores que no son cero, y luego aplicar el lazo nuevamente, pero usando solo los predictores seleccionados del primer paso. Esto se conoce como el lazo relajado(Meinshausen, 2007). La idea es utilizar la validación cruzada para estimar el parámetro de penalización inicial para el lazo, y luego nuevamente para un segundo parámetro de penalización aplicado al conjunto seleccionado de predictores. Dado que las variables en el segundo paso tienen menos "competencia" de las variables de ruido, la validación cruzada tenderá a elegir un valor menor para [el parámetro de penalización] y, por lo tanto, sus coeficientes se reducirán menos que los de la estimación inicial.λ

Otro enfoque razonable similar en espíritu al lazo relajado, sería usar el lazo una vez (o varias veces en conjunto) para identificar un grupo de variables predictoras candidatas. Luego use la mejor regresión de subconjuntos para seleccionar las mejores variables predictoras a considerar (también vea "Elementos de aprendizaje estadístico" para esto). Para que esto funcione, necesitará refinar el grupo de predictores candidatos a alrededor de 35, lo que no siempre será factible. Puede utilizar la validación cruzada o AIC como criterio para evitar un ajuste excesivo.

Alex Williams
fuente
Otra parte de mi pregunta es, ¿por qué 'Lasso puede seleccionar como máximo n funciones'? Si este es el caso, creo que OLS en las características seleccionadas será al menos 'bueno', ya que OLS es 'AZUL' (no estrictamente AZUL, ya que está sesgado). Solo considere una situación extrema en la que Lasso selecciona las características correctas, la realización de OLS en estas características restaurará el modelo verdadero, que creo que es mejor que la estimación de Lasso.
yliueagle
2
El problema es que es poco probable que ocurra esta "situación extrema", y no hay forma de saber si LASSO ha seleccionado exactamente las características correctas. Si LASSO selecciona demasiadas funciones, entonces creo que el modelo OLS completo puede funcionar peor que las estimaciones de LASSO. Del mismo modo, la regresión de cresta puede superar a OLS si hay demasiadas características (es decir, OLS está sobreajustada).
Alex Williams
2
Ver también web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf , el final de la Sección 2.2: "el ajuste de mínimos cuadrados en el subconjunto de [...] predictores tiende a expandir las estimaciones de lazo lejos de cero. Las estimaciones distintas de cero del lazo tienden a estar sesgadas hacia cero, por lo que el desbarbado en el panel derecho a menudo puede mejorar el error de predicción del modelo. Este proceso de dos etapas también se conoce como lazo relajado (Meinshausen 2007) ".
ameba dice Reinstate Monica
1
Revisé el artículo de Meinshausen y en realidad recomienda ajustar dos parámetros de penalización, como se describe en su cita original de The Elements. +1
ameba dice Reinstate Monica
@AlexWilliams Pero, ¿no hay una suposición de escasez en el párrafo anterior sobre la correlación entre el conjunto seleccionado y lo que se elimina como pequeño?
Dimitriy V. Masterov
15

Si su objetivo es un rendimiento óptimo en la muestra (wrt R-cuadrado más alto), simplemente use OLS en cada variable disponible. La caída de variables disminuirá R-cuadrado.

Si su objetivo es un buen rendimiento fuera de la muestra (que generalmente es lo que es mucho más importante), entonces su estrategia propuesta sufrirá dos fuentes de sobreajuste:

  • Selección de variables basadas en correlaciones con la variable de respuesta.
  • Estimaciones de OLS

El propósito de LASSO es reducir las estimaciones de los parámetros hacia cero para luchar por encima de dos fuentes de sobreajuste. Las predicciones dentro de la muestra siempre serán peores que las MCO, pero la esperanza es (dependiendo de la fuerza de la penalización) para obtener un comportamiento más realista fuera de la muestra.

Con respecto a : Esto (probablemente) depende de la implementación de LASSO que esté utilizando. Una variante, Lars (regresión de ángulo mínimo), funciona fácilmente para p > n .p>np>n

Michael M
fuente
2
El "Leekasso" (siempre elija 10 coeficientes) es diferente a la propuesta de la pregunta (vuelva a estimar MCO con k predictores elegidos por LASSO)
Afine
@affine tienes toda la razón. Quité la referencia.
Michael M
2
Esto suena razonable, pero los inventores de Lasso argumentan lo contrario y en realidad recomiendan el uso de un procedimiento de dos etapas con OLS en el subconjunto identificado por Lasso (como lo sugiere el OP), vea la respuesta de @ Alex.
ameba dice Reinstate Monica
Me gusta esta respuesta porque menciona el sesgo de selección de la búsqueda misma; seguro que parece que debería haber una penalización adicional. LASSO como un simple mecanismo de selección de subconjuntos: ¿eso es todo? Entonces, ¿por qué incluso imprimir sus coeficientes?
Ben Ogorek
3

Con respecto a la pregunta de los OP de por qué Lasso puede seleccionar como máximo n funciones:

XTXβ=(XTX)1XTY

XTX

jmp111
fuente
1
(XTX)1