¿Cuáles son las desventajas de usar el lazo para la selección de variables para la regresión?

60

Por lo que sé, usar el lazo para la selección de variables maneja el problema de las entradas correlacionadas. Además, dado que es equivalente a la regresión de ángulo mínimo, no es lenta computacionalmente. Sin embargo, muchas personas (por ejemplo, personas que conozco haciendo bioestadística) todavía parecen estar a favor de la selección de variables por etapas o por etapas. ¿Hay alguna desventaja práctica de usar el lazo que lo hace desfavorable?

xuexue
fuente
99
No sé dónde escuchó que Lasso maneja el problema de la colinealidad, eso no es del todo cierto.
Macro
3
Horseshoe antes es mejor que LASSO para la selección del modelo, al menos en el caso del modelo disperso (donde la selección del modelo es la más útil). Puede encontrar una discusión sobre estos puntos en este enlace . Dos de los autores de este documento también obtuvieron un artículo similar en las reuniones de Valencia, Bayesian Statistics 9 "Shrink Globally Act Locally: Sparse bayesian regular and prediction". El artículo de Valencia entra en mucho más detalle sobre un marco de penalización.
probabilidadislogica
99
Si solo está interesado en la predicción, la selección del modelo no ayuda y generalmente duele (a diferencia de una penalización cuadrática = norma L2 = regresión de cresta sin selección de variables). LASSO paga un precio en discriminación predictiva por intentar hacer una selección variable.
Frank Harrell
3
Lanzar una moneda para tomar una decisión arbitraria a menudo revela que realmente te importa el resultado. Cualquier método que ofrezca tomar decisiones por usted sobre la selección de predictores a menudo deja en claro que sí tiene ideas sobre qué predictores pertenecen más naturalmente al modelo, ideas que no desea ignorar. LASSO puede funcionar así.
Nick Cox
55
Segundo @Nick: "ninguna teoría disponible para guiar la selección del modelo" casi nunca es realista. El sentido común es teoría.
Scortchi - Restablece a Monica

Respuestas:

29

NO hay razón para hacer una selección por pasos. Simplemente está mal.

LASSO / LAR son los mejores métodos automáticos. Pero son métodos automáticos. Dejan que el analista no piense.

En muchos análisis, algunas variables deben estar en el modelo SIN IMPORTAR de ninguna medida de significación. A veces son necesarias variables de control. Otras veces, encontrar un pequeño efecto puede ser de importancia sustancial.

Peter Flom - Restablece a Monica
fuente
43
"NO hay razón para hacer una selección por pasos. Simplemente está mal". - Casi nunca son declaraciones increíblemente amplias como esa, desprovistas de contexto, buenas prácticas estadísticas. Si algo aquí es "simplemente incorrecto", es la declaración en negrita anterior. Si su análisis no enfatiza los valores o las estimaciones de parámetros (p. Ej., Modelos predictivos), la selección de variables por pasos puede ser algo sensato y puede :: gasp :: superar a LASSO en algunos casos. (Peter, sé que hemos tenido esta convo antes; este comentario está más dirigido a un futuro lector que solo puede encontrar esta publicación y no la otra). p
Macro
44
-1 debido a la crítica general de stepwise. No es "simplemente incorrecto", pero tiene un lugar como modelo de búsqueda determinista. Realmente tienes una abeja en tu capó sobre los métodos automáticos.
probabilidad es
8
@Elvis, no soy un experto en el tema o un defensor de paso a paso; Solo estoy en desacuerdo con la naturaleza incondicional de la declaración. Pero, por curiosidad, hice algunas simulaciones simples y descubrí que cuando tienes una gran cantidad de predictores colineales que tienen efectos aproximadamente iguales, la selección hacia atrás funciona mejor que LASSO, en términos de predicción fuera de muestra. Solía con . Los predictores son normales estándar con para cada par . ε ~ N ( 0 , 1 ) c o r ( X i j , X i k ) = 1 / 2 ( j , k )
Yi=j=1100Xij+εi
εN(0,1)cor(Xij,Xik)=1/2(j,k)
Macro
10
Sin duda, debe investigar la colinealidad antes de embarcarse en cualquier regresión. Yo diría que si tiene una gran cantidad de variables colineales, no debe usar LASSO o Stepwise; debe resolver el problema de colinealidad (eliminar variables, obtener más datos, etc.) o utilizar un método diseñado para tales problemas (por ejemplo, regresión de cresta)
Peter Flom - Restablecer a Monica
55
OK, tienes razón, pero no creo que sea realmente relevante. Ni el lazo NOR hacia atrás (ni ningún método de selección variable) resuelve todos los problemas. Hay cosas que debe hacer antes de comenzar a modelar, y una de ellas es verificar la colinealidad. Tampoco me importaría qué método de selección de variables funcionó para otros conjuntos de datos que violaron las reglas de la regresión a las que ambos métodos deben aplicarse.
Peter Flom - Restablece a Monica
22

Si solo le importa el error de predicción y no le importa la interpretabilidad, la inferencia casual, la simplicidad del modelo, las pruebas de coeficientes, etc., ¿por qué aún quiere usar el modelo de regresión lineal?

Puede usar algo como aumentar los árboles de decisión o apoyar la regresión de vectores y obtener una mejor calidad de predicción y aún así evitar el sobreajuste en ambos casos mencionados. Es posible que Lasso no sea la mejor opción para obtener la mejor calidad de predicción.

Si mi comprensión es correcta, Lasso está destinado a situaciones en las que todavía está interesado en el modelo en sí, no solo en predicciones. Es decir, vea las variables seleccionadas y sus coeficientes, interprete de alguna manera, etc. Y para esto, Lasso puede no ser la mejor opción en ciertas situaciones como se discute en otras preguntas aquí.

Kochede
fuente
20

LASSO alienta la reducción de los coeficientes a 0, es decir, eliminar esas variaciones de su modelo. Por el contrario, otras técnicas de regularización como una cresta tienden a mantener todas las variantes.

Por lo tanto, recomendaría pensar si esta caída tiene sentido para sus datos. Por ejemplo, considere establecer una prueba de diagnóstico clínico en datos de microarrays de genes o en datos espectroscópicos vibracionales.

  • Es de esperar que algunos genes contengan información relevante, pero muchos otros genes son simplemente ruido. tu solicitud. Dejar caer esas variantes es una idea perfectamente sensata.

  • Por el contrario, los conjuntos de datos espectroscópicos vibracionales (aunque generalmente tienen dimensiones similares en comparación con los datos de microarrays) tienden a tener la información relevante "untada" en grandes partes del espectro (correlación). En esta situación, pedirle a la regularización que elimine las variantes no es un enfoque particularmente sensato. Más aún, ya que otras técnicas de regularización como PLS están más adaptadas a este tipo de datos.

Los Elementos del aprendizaje estadístico ofrecen una buena discusión sobre el LASSO y lo contrastan con otras técnicas de regularización.

cbeleites apoya a Monica
fuente
14

Si dos predictores están altamente correlacionados, LASSO puede terminar cayendo uno de manera bastante arbitraria. Eso no es muy bueno cuando quieres hacer predicciones para una población donde esos dos predictores no están altamente correlacionados, y tal vez una razón para preferir la regresión de cresta en esas circunstancias.

También podría pensar que la estandarización de los predictores (por ejemplo, cuando los coeficientes son "grandes" o "pequeños") es bastante arbitraria y se desconcierta (como yo) sobre formas razonables de estandarizar los predictores categóricos.

Scortchi - Restablece a Monica
fuente
1
Gracias por esta respuesta ¿Conoces algún documento que discuta los problemas con predictores correlacionados / predictores categóricos?
Berk U.
2
Vale la pena agregar que hay otros métodos de regresión penalizados que intentan aliviar esos problemas (como la red elástica).
bdeonovic
Para hacer la selección de variables con variables altamente colineales, la cresta adaptativa iterativa (que se aproxima a la regresión penalizada L0 y se implementa en el paquete l0ara) tiende a funcionar mejor, o las penalizaciones L0L2, como se implementa en el paquete L0Learn, también funcionan bien ...
Tom Wenseleers
9

Lasso solo es útil si se limita a considerar modelos que son lineales en los parámetros a estimar. Dicho de otra manera, el lazo no evalúa si ha elegido la forma correcta de la relación entre las variables independientes y dependientes.

Es muy plausible que pueda haber efectos no lineales, interactivos o polinómicos en un conjunto de datos arbitrarios. Sin embargo, estas especificaciones de modelos alternativos solo se evaluarán si el usuario realiza ese análisis; el lazo no es un sustituto para hacerlo.

Para un ejemplo simple de cómo esto puede salir mal, considere un conjunto de datos en el que los intervalos disjuntos de la variable independiente predecirán valores alternos altos y bajos de la variable dependiente. Esto será difícil de resolver utilizando modelos lineales convencionales, ya que no hay un efecto lineal en las variables de manifiesto presentes para el análisis (pero puede ser útil alguna transformación de las variables de manifiesto). Si se deja en su forma manifiesta, el lazo concluirá incorrectamente que esta característica es extraña y pondrá a cero su coeficiente porque no hay una relación lineal . Por otro lado, debido a que hay divisiones alineadas a los ejes en los datos, un modelo basado en árboles como un bosque aleatorio probablemente funcionará bastante bien.

ingrese la descripción de la imagen aquí

Reinstalar a Mónica
fuente
5

Una desventaja práctica del lazo y otras técnicas de regularización es encontrar el coeficiente de regularización óptimo, lambda. Usar la validación cruzada para encontrar este valor puede ser tan costoso como las técnicas de selección por pasos.

rm999
fuente
¿Qué quieres decir con "caro"?
mark999
44
Este reclamo no es realmente cierto. Si adopta la búsqueda de cuadrícula de "inicio en caliente" como en el método glmnet, puede calcular toda la cuadrícula muy rápidamente.
probabilidadislogica
1
@probabilityislogic Es cierto, solo leí sobre los comienzos cálidos después de hacer el comentario anterior. ¿Qué opina de este documento, que indica que los arranques en caliente son más lentos y, a veces, menos efectivos que la simple validación cruzada? users.cis.fiu.edu/~lzhen001/activities/KDD2011Program/docs/…
rm999
55
λ
5

No soy un experto en LASSO pero soy un experto en series de tiempo. Si tiene datos de series temporales o datos espaciales, entonces evitaría cuidadosamente una solución basada en observaciones independientes. Además, si hay efectos deterministas desconocidos que han causado estragos en sus datos (cambios de nivel / tendencias de tiempo, etc.), LASSO sería incluso menos un buen martillo. Para cerrar, cuando tiene datos de series de tiempo, a menudo necesita segmentar los datos cuando se enfrenta a parámetros o variaciones de error que cambian con el tiempo.

IrishStat
fuente
1
LASSO puede ofrecer un buen rendimiento de pronóstico cuando se aplica en modelos de series de tiempo basadas en regresión, tales como autorregresiones ar (AR), autorregresiones vectoriales (VAR) y modelos de corrección de errores vectoriales (VECM). Por ejemplo, busque la autorregresión vectorial de lazo y encontrará muchos ejemplos en la literatura académica. En mi propia experiencia, el uso de LASSO para modelos VAR estacionarios proporciona un rendimiento de pronóstico superior en comparación con toda la selección de subconjuntos o la regularización de crestas, mientras que la regularización de crestas supera a LASSO para modelos VAR integrados (debido a la multicolinealidad, según la respuesta de Scortchi).
Richard Hardy
Por lo tanto, la falla de LASSO no es inherente a que los datos sean series de tiempo.
Richard Hardy
3

Esta ya es una pregunta bastante antigua, pero creo que, mientras tanto, la mayoría de las respuestas aquí están bastante desactualizadas (y la que está marcada como la respuesta correcta es, en mi opinión, errónea).

Primero, en términos de obtener un buen rendimiento de predicción, no es universalmente cierto que LASSO siempre es mejor que paso a paso. El documento "Comparaciones extendidas de la mejor selección de subconjuntos, la selección progresiva hacia adelante y el lazo" de Hastie et al (2017) proporciona una comparación exhaustiva de las variantes hacia adelante paso a paso, LASSO y algunas de LASSO, como el LASSO relajado y el mejor subconjunto, y Demuestre que paso a paso es a veces mejor que LASSO. Sin embargo, una variante de LASSO, LASSO relajada, fue la que produjo la mayor precisión de predicción del modelo en la más amplia gama de circunstancias. Sin embargo, la conclusión acerca de cuál es la mejor depende mucho de lo que considere mejor, por ejemplo, si esto sería la mayor precisión de predicción o la selección de la menor cantidad de variables positivas falsas.

Sin embargo, hay un zoológico completo de métodos de aprendizaje dispersos, la mayoría de los cuales son mejores que LASSO. Por ejemplo, no es del Meinhausen LASSO relajado , LASSO adaptativo y SCAD y MCP penalizado regresión como se aplica en el ncvregpaquete, todos los cuales tienen menos sesgo que LASSO estándar y también lo son preferible. Además, si está interesado en la solución más escasa absoluta con el mejor rendimiento de predicción, L0 penaliza la regresión (también conocido como el mejor subconjunto, es decir, basado en la penalización del nr de coeficientes distintos de cero en lugar de la suma del valor absoluto de los coeficientes en LASSO) es mejor que LASSO, consulte, por ejemplo, el l0arapaquete que se aproxima a GLM penalizados L0 utilizando un procedimiento de cresta adaptativo iterativo, y que, a diferencia de LASSO, también funciona muy bien con variables altamente colineales, y el L0Learnpaquete , que puede ajustarse a los modelos de regresión penalizados L0 utilizando el descenso de coordenadas , potencialmente en combinación con una penalización L2 para regularizar la colinealidad.

Entonces, para volver a su pregunta original: ¿por qué no usar LASSO para la selección de variables? :

(1) porque los coeficientes estarán muy sesgados, lo que se mejora en la regresión penalizada por LASSO, MCP y SCAD relajada, y se resuelve completamente en la regresión penalizada L0 (que tiene una propiedad de oráculo completo, es decir, puede seleccionar tanto las variables causales como la repetición coeficientes insesgados, también para casos p> n)

(2) porque tiende a producir muchos más falsos positivos que la regresión penalizada L0 (en mis pruebas l0arafunciona mejor entonces, es decir, la cresta adaptativa iterativa, seguida de L0Learn)

(3) porque no puede ocuparse bien de las variables colineales (esencialmente solo seleccionaría al azar una de las variables colineales): la cresta adaptativa iterativa / l0aray las penalizaciones L0L2 L0Learnson mucho mejores para tratar eso.

Por supuesto, en general, aún tendrá que usar la validación cruzada para ajustar sus parámetros de regularización para obtener un rendimiento de predicción óptimo, pero eso no es un problema. E incluso puede hacer una inferencia de alta dimensión en sus parámetros y calcular intervalos de confianza del 95% en sus coeficientes si lo desea a través de bootstrapping no paramétrico (incluso teniendo en cuenta la incertidumbre sobre la selección de la regularización óptima si realiza su validación cruzada también en cada conjunto de datos bootstrapped) , aunque eso se vuelve bastante lento entonces).

Desde el punto de vista computacional, LASSO no es más lento que los pasos paso a paso por cierto, ciertamente no si uno usa un código altamente optimizado que usa arranques en caliente para optimizar su regularización LASSO (puede compararse usando el fscomando para avanzar paso a paso y lassopara LASSO en el bestsubsetpaquete). El hecho de que los enfoques escalonados sigan siendo populares probablemente tenga que ver con la creencia errónea de muchos de que uno podría mantener su modelo final e informar sus valores p asociados, lo que de hecho no es lo correcto, ya que esto no tenga en cuenta la incertidumbre introducida por su selección de modelo, lo que resulta en valores p demasiado optimistas.

¿Espero que esto ayude?

Tom Wenseleers
fuente
0

Uno grande es la dificultad de hacer pruebas de hipótesis. No puede averiguar fácilmente qué variables son estadísticamente significativas con Lasso. Con la regresión gradual, puede hacer pruebas de hipótesis hasta cierto punto, si tiene cuidado con el tratamiento de las pruebas múltiples.

dsimcha
fuente
8
Yo diría que es una ventaja, no una desventaja. Te impide hacer algo que probablemente no deberías estar haciendo.
Peter Flom - Restablece a Monica
@Peter: ¿Por qué? Supongo que corregirá correctamente las pruebas múltiples, etc., de modo que los valores P obtenidos sean válidos.
dsimcha
10
Realmente no hay una manera de corregir adecuadamente las pruebas múltiples de forma gradual. Ver, por ejemplo, estrategias de modelado de regresión de Harrell. No hay forma de saber la corrección correcta
Peter Flom - Restablecer a Monica
44
Es cierto que la dificultad de hacer pruebas de hipótesis es una desventaja potencial de LASSO. No es cierto que esto sea una desventaja frente a la regresión gradual.
gung - Restablece a Monica
2
Bueno, existe el marco de inferencia selectiva (implementado en el paquete selectivo de inferencia) para hacer (post selección) inferencia para el LASSO ... O para cualquier método de selección variable, uno podría usar bootstrapping no paramétrico para hacer inferencia y obtener intervalos de confianza en sus estimaciones de parámetros. ..
Tom Wenseleers