¿Cómo selecciona LASSO entre los predictores colineales?

10

Estoy buscando una respuesta intuitiva por la que un modelo GLM LASSO selecciona un predictor específico de un grupo de altamente correlacionados, y por qué lo hace de manera diferente a la mejor selección de características de subconjunto.

A partir de la geometría del LASSO que se muestra en la Figura 2 en Tibshirani 1996 , creo que LASSO selecciona el predictor con la mayor varianza.

Ahora suponga que utilizo la mejor selección de subconjuntos con CV 10 veces, para obtener 2 predictores para un modelo de regresión logística y tengo un conocimiento previo razonable de que estos 2 predictores son óptimos (en sentido de pérdida 0-1).

La solución LASSO favorece una solución menos parsimoniosa (5 predictores) con mayor error de predicción. Intuitivamente, ¿qué causa que surja la diferencia? ¿Se debe a la forma en que LASSO selecciona entre los predictores correlacionados?

Piotr Sokol
fuente

Respuestas:

5

LASSO difiere de la selección del mejor subconjunto en términos de penalización y dependencia de la ruta.

En la selección del mejor subconjunto, presumiblemente se usó CV para identificar que 2 predictores dieron el mejor rendimiento. Durante el CV, los coeficientes de regresión de magnitud completa sin penalización se habrían utilizado para evaluar cuántas variables incluir. Una vez que se tomó la decisión de usar 2 predictores, todas las combinaciones de 2 predictores se compararían en el conjunto de datos completo, en paralelo, para encontrar los 2 para el modelo final. A esos 2 predictores finales se les darían sus coeficientes de regresión de magnitud completa, sin penalización, como si hubieran sido las únicas opciones desde el principio.

Puede pensar que LASSO comienza con una penalización grande en la suma de las magnitudes de los coeficientes de regresión, con la penalización gradualmente relajada. El resultado es que las variables entran una a la vez, con una decisión tomada en cada punto durante la relajación si es más valioso aumentar los coeficientes de las variables que ya están en el modelo, o agregar otra variable. Pero cuando llegue, digamos, a un modelo de 2 variables, los coeficientes de regresión permitidos por LASSO serán de menor magnitud que esas mismas variables en las regresiones estándar no penalizadas utilizadas para comparar modelos de 2 variables y 3 variables en La mejor selección de subconjuntos.

Se puede considerar que esto facilita la entrada de nuevas variables en LASSO que en la selección del mejor subconjunto. Heurísticamente, LASSO intercambia coeficientes de regresión potencialmente más bajos que los reales contra la incertidumbre sobre cuántas variables deberían incluirse. Esto tendería a incluir más variables en un modelo LASSO y un rendimiento potencialmente peor para LASSO si supiera con seguridad que solo se necesitaban 2 variables. Pero si ya sabía cuántas variables predictoras deberían incluirse en el modelo correcto, probablemente no estaría usando LASSO.

Hasta el momento, nada ha dependido de la colinealidad, que conduce a diferentes tipos de arbitrariedad en la selección de variables en el mejor subconjunto versus LASSO. En este ejemplo, el mejor subconjunto examinó todas las combinaciones posibles de 2 predictores y eligió la mejor entre esas combinaciones. Entonces los mejores 2 para esa muestra de datos en particular ganan.

LASSO, con su dependencia de la ruta al agregar una variable a la vez, significa que una elección temprana de una variable puede influir cuando otras variables relacionadas con ella ingresan más tarde en el proceso de relajación. También es posible que una variable ingrese temprano y luego que su coeficiente LASSO disminuya a medida que ingresan otras variables correlacionadas.

En la práctica, la elección entre predictores correlacionados en los modelos finales con cualquiera de los métodos depende en gran medida de la muestra, como puede verificarse repitiendo estos procesos de construcción de modelos en muestras de arranque de los mismos datos. Si no hay demasiados predictores, y su interés principal está en la predicción de nuevos conjuntos de datos, la regresión de cresta, que tiende a mantener todos los predictores, puede ser una mejor opción.

EdM
fuente