Por lo que sé, usar el lazo para la selección de variables maneja el problema de las entradas correlacionadas. Además, dado que es equivalente a la regresión de ángulo mínimo, no es lenta computacionalmente. Sin embargo, muchas personas (por ejemplo, personas que conozco haciendo bioestadística) todavía parecen estar a favor de la selección de variables por etapas o por etapas. ¿Hay alguna desventaja práctica de usar el lazo que lo hace desfavorable?
regression
feature-selection
lasso
xuexue
fuente
fuente
Respuestas:
NO hay razón para hacer una selección por pasos. Simplemente está mal.
LASSO / LAR son los mejores métodos automáticos. Pero son métodos automáticos. Dejan que el analista no piense.
En muchos análisis, algunas variables deben estar en el modelo SIN IMPORTAR de ninguna medida de significación. A veces son necesarias variables de control. Otras veces, encontrar un pequeño efecto puede ser de importancia sustancial.
fuente
Si solo le importa el error de predicción y no le importa la interpretabilidad, la inferencia casual, la simplicidad del modelo, las pruebas de coeficientes, etc., ¿por qué aún quiere usar el modelo de regresión lineal?
Puede usar algo como aumentar los árboles de decisión o apoyar la regresión de vectores y obtener una mejor calidad de predicción y aún así evitar el sobreajuste en ambos casos mencionados. Es posible que Lasso no sea la mejor opción para obtener la mejor calidad de predicción.
Si mi comprensión es correcta, Lasso está destinado a situaciones en las que todavía está interesado en el modelo en sí, no solo en predicciones. Es decir, vea las variables seleccionadas y sus coeficientes, interprete de alguna manera, etc. Y para esto, Lasso puede no ser la mejor opción en ciertas situaciones como se discute en otras preguntas aquí.
fuente
LASSO alienta la reducción de los coeficientes a 0, es decir, eliminar esas variaciones de su modelo. Por el contrario, otras técnicas de regularización como una cresta tienden a mantener todas las variantes.
Por lo tanto, recomendaría pensar si esta caída tiene sentido para sus datos. Por ejemplo, considere establecer una prueba de diagnóstico clínico en datos de microarrays de genes o en datos espectroscópicos vibracionales.
Es de esperar que algunos genes contengan información relevante, pero muchos otros genes son simplemente ruido. tu solicitud. Dejar caer esas variantes es una idea perfectamente sensata.
Por el contrario, los conjuntos de datos espectroscópicos vibracionales (aunque generalmente tienen dimensiones similares en comparación con los datos de microarrays) tienden a tener la información relevante "untada" en grandes partes del espectro (correlación). En esta situación, pedirle a la regularización que elimine las variantes no es un enfoque particularmente sensato. Más aún, ya que otras técnicas de regularización como PLS están más adaptadas a este tipo de datos.
Los Elementos del aprendizaje estadístico ofrecen una buena discusión sobre el LASSO y lo contrastan con otras técnicas de regularización.
fuente
Si dos predictores están altamente correlacionados, LASSO puede terminar cayendo uno de manera bastante arbitraria. Eso no es muy bueno cuando quieres hacer predicciones para una población donde esos dos predictores no están altamente correlacionados, y tal vez una razón para preferir la regresión de cresta en esas circunstancias.
También podría pensar que la estandarización de los predictores (por ejemplo, cuando los coeficientes son "grandes" o "pequeños") es bastante arbitraria y se desconcierta (como yo) sobre formas razonables de estandarizar los predictores categóricos.
fuente
Lasso solo es útil si se limita a considerar modelos que son lineales en los parámetros a estimar. Dicho de otra manera, el lazo no evalúa si ha elegido la forma correcta de la relación entre las variables independientes y dependientes.
Es muy plausible que pueda haber efectos no lineales, interactivos o polinómicos en un conjunto de datos arbitrarios. Sin embargo, estas especificaciones de modelos alternativos solo se evaluarán si el usuario realiza ese análisis; el lazo no es un sustituto para hacerlo.
Para un ejemplo simple de cómo esto puede salir mal, considere un conjunto de datos en el que los intervalos disjuntos de la variable independiente predecirán valores alternos altos y bajos de la variable dependiente. Esto será difícil de resolver utilizando modelos lineales convencionales, ya que no hay un efecto lineal en las variables de manifiesto presentes para el análisis (pero puede ser útil alguna transformación de las variables de manifiesto). Si se deja en su forma manifiesta, el lazo concluirá incorrectamente que esta característica es extraña y pondrá a cero su coeficiente porque no hay una relación lineal . Por otro lado, debido a que hay divisiones alineadas a los ejes en los datos, un modelo basado en árboles como un bosque aleatorio probablemente funcionará bastante bien.
fuente
Una desventaja práctica del lazo y otras técnicas de regularización es encontrar el coeficiente de regularización óptimo, lambda. Usar la validación cruzada para encontrar este valor puede ser tan costoso como las técnicas de selección por pasos.
fuente
No soy un experto en LASSO pero soy un experto en series de tiempo. Si tiene datos de series temporales o datos espaciales, entonces evitaría cuidadosamente una solución basada en observaciones independientes. Además, si hay efectos deterministas desconocidos que han causado estragos en sus datos (cambios de nivel / tendencias de tiempo, etc.), LASSO sería incluso menos un buen martillo. Para cerrar, cuando tiene datos de series de tiempo, a menudo necesita segmentar los datos cuando se enfrenta a parámetros o variaciones de error que cambian con el tiempo.
fuente
Esta ya es una pregunta bastante antigua, pero creo que, mientras tanto, la mayoría de las respuestas aquí están bastante desactualizadas (y la que está marcada como la respuesta correcta es, en mi opinión, errónea).
Primero, en términos de obtener un buen rendimiento de predicción, no es universalmente cierto que LASSO siempre es mejor que paso a paso. El documento "Comparaciones extendidas de la mejor selección de subconjuntos, la selección progresiva hacia adelante y el lazo" de Hastie et al (2017) proporciona una comparación exhaustiva de las variantes hacia adelante paso a paso, LASSO y algunas de LASSO, como el LASSO relajado y el mejor subconjunto, y Demuestre que paso a paso es a veces mejor que LASSO. Sin embargo, una variante de LASSO, LASSO relajada, fue la que produjo la mayor precisión de predicción del modelo en la más amplia gama de circunstancias. Sin embargo, la conclusión acerca de cuál es la mejor depende mucho de lo que considere mejor, por ejemplo, si esto sería la mayor precisión de predicción o la selección de la menor cantidad de variables positivas falsas.
Sin embargo, hay un zoológico completo de métodos de aprendizaje dispersos, la mayoría de los cuales son mejores que LASSO. Por ejemplo, no es del Meinhausen LASSO relajado , LASSO adaptativo y SCAD y MCP penalizado regresión como se aplica en el
ncvreg
paquete, todos los cuales tienen menos sesgo que LASSO estándar y también lo son preferible. Además, si está interesado en la solución más escasa absoluta con el mejor rendimiento de predicción, L0 penaliza la regresión (también conocido como el mejor subconjunto, es decir, basado en la penalización del nr de coeficientes distintos de cero en lugar de la suma del valor absoluto de los coeficientes en LASSO) es mejor que LASSO, consulte, por ejemplo, ell0ara
paquete que se aproxima a GLM penalizados L0 utilizando un procedimiento de cresta adaptativo iterativo, y que, a diferencia de LASSO, también funciona muy bien con variables altamente colineales, y elL0Learn
paquete , que puede ajustarse a los modelos de regresión penalizados L0 utilizando el descenso de coordenadas , potencialmente en combinación con una penalización L2 para regularizar la colinealidad.Entonces, para volver a su pregunta original: ¿por qué no usar LASSO para la selección de variables? :
(1) porque los coeficientes estarán muy sesgados, lo que se mejora en la regresión penalizada por LASSO, MCP y SCAD relajada, y se resuelve completamente en la regresión penalizada L0 (que tiene una propiedad de oráculo completo, es decir, puede seleccionar tanto las variables causales como la repetición coeficientes insesgados, también para casos p> n)
(2) porque tiende a producir muchos más falsos positivos que la regresión penalizada L0 (en mis pruebas
l0ara
funciona mejor entonces, es decir, la cresta adaptativa iterativa, seguida deL0Learn
)(3) porque no puede ocuparse bien de las variables colineales (esencialmente solo seleccionaría al azar una de las variables colineales): la cresta adaptativa iterativa /
l0ara
y las penalizaciones L0L2L0Learn
son mucho mejores para tratar eso.Por supuesto, en general, aún tendrá que usar la validación cruzada para ajustar sus parámetros de regularización para obtener un rendimiento de predicción óptimo, pero eso no es un problema. E incluso puede hacer una inferencia de alta dimensión en sus parámetros y calcular intervalos de confianza del 95% en sus coeficientes si lo desea a través de bootstrapping no paramétrico (incluso teniendo en cuenta la incertidumbre sobre la selección de la regularización óptima si realiza su validación cruzada también en cada conjunto de datos bootstrapped) , aunque eso se vuelve bastante lento entonces).
Desde el punto de vista computacional, LASSO no es más lento que los pasos paso a paso por cierto, ciertamente no si uno usa un código altamente optimizado que usa arranques en caliente para optimizar su regularización LASSO (puede compararse usando el
fs
comando para avanzar paso a paso ylasso
para LASSO en elbestsubset
paquete). El hecho de que los enfoques escalonados sigan siendo populares probablemente tenga que ver con la creencia errónea de muchos de que uno podría mantener su modelo final e informar sus valores p asociados, lo que de hecho no es lo correcto, ya que esto no tenga en cuenta la incertidumbre introducida por su selección de modelo, lo que resulta en valores p demasiado optimistas.¿Espero que esto ayude?
fuente
Uno grande es la dificultad de hacer pruebas de hipótesis. No puede averiguar fácilmente qué variables son estadísticamente significativas con Lasso. Con la regresión gradual, puede hacer pruebas de hipótesis hasta cierto punto, si tiene cuidado con el tratamiento de las pruebas múltiples.
fuente