¿Cómo se comparan los métodos de regularización de cresta, LASSO y elasticnet? ¿Cuáles son sus respectivas ventajas y desventajas? Cualquier buen documento técnico o apuntes de clase también serán apreciados.
¿Cómo se comparan los métodos de regularización de cresta, LASSO y elasticnet? ¿Cuáles son sus respectivas ventajas y desventajas? Cualquier buen documento técnico o apuntes de clase también serán apreciados.
¿Es posible calcular los valores de AIC o BIC para los modelos de regresión de lazo y otros modelos regularizados donde los parámetros solo ingresan parcialmente la ecuación? ¿Cómo se determinan los grados de libertad? Estoy usando R para ajustar los modelos de regresión de lazo con la...
Para el LASSO (y otros procedimientos de selección de modelos) es crucial reescalar los predictores. La recomendación general que sigo es simplemente usar una normalización de media 0 desviación estándar 1 para variables continuas. Pero, ¿qué hay que ver con los maniquíes? Por ejemplo, algunos...
Nota: Sé que L1 tiene una propiedad de selección de características. Estoy tratando de entender cuál elegir cuando la selección de funciones es completamente irrelevante. ¿Cómo decidir qué regularización (L1 o L2) usar? ¿Cuáles son los pros y los contras de cada una de las regularizaciones L1 /...
Utilizo la función auto.arima () en el paquete de pronóstico para ajustar los modelos ARMAX con una variedad de covariables. Sin embargo, a menudo tengo una gran cantidad de variables para seleccionar y generalmente termino con un modelo final que funciona con un subconjunto de ellas. No me gustan...
He leído tres razones principales para estandarizar variables antes de algo como la Lassoregresión: 1) Interpretabilidad de coeficientes. 2) Capacidad para clasificar la importancia del coeficiente según la magnitud relativa de las estimaciones del coeficiente posterior a la contracción. 3) No...
βlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+...
He leído en varias referencias que la estimación de Lasso para el vector de parámetro de regresión es equivalente al modo posterior de en el que la distribución previa para cada es una distribución exponencial doble (también conocida como distribución de Laplace).BBBB iBBBBiBiB_i He estado...
Cuando uso GAM, me da un DF residual de 26.626.626.6 (última línea en el código). Qué significa eso? Yendo más allá del ejemplo de GAM, en general, ¿puede el número de grados de libertad ser un número no entero? > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~...
Para la regresión Lasso suponga que la mejor solución (error de prueba mínimo, por ejemplo) selecciona k características, para que \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lazo}, 0, ... 0 \ derecha) .k β l un s s o = ( β...
Una vez escuché un método de usar el lazo dos veces (como un lazo doble) en el que realizas un lazo en el conjunto original de variables, por ejemplo, S1, obtienes un conjunto disperso llamado S2 y luego vuelves a realizar el lazo en el conjunto S2 para obtener el conjunto S3 . ¿Existe un término...
La regresión de LASSO reduce los coeficientes hacia cero, proporcionando así una selección de modelo efectiva. Creo que en mis datos hay interacciones significativas entre covariables nominales y continuas. No necesariamente, sin embargo, son los 'efectos principales' del verdadero modelo...
Entonces me hicieron una pregunta sobre qué medidas centrales L1 (es decir, lazo) y L2 (es decir, regresión de cresta) estimaron. La respuesta es L1 = mediana y L2 = media. ¿Hay algún tipo de razonamiento intuitivo para esto? ¿O tiene que determinarse algebraicamente? Si es así, ¿cómo hago para...
Hay diferentes programas de implementación disponibles para el lazo . Sé mucho sobre el enfoque bayesiano frente al enfoque frecuentista en diferentes foros. Mi pregunta es muy específica para el lazo: ¿Cuáles son las diferencias o ventajas del lazo baysiano en comparación con el lazo normal...
Quiero comprender mejor los paquetes R Larsy Glmnet, que se utilizan para resolver el problema de Lasso: (para Variables y muestras, ver www.stanford.edu/~hastie/Papers/glmnet.pdf en la página 3)m i n( β0 0β) ∈ Rp + 1[ 12 N∑i = 1norte( yyo- β0 0- xTyoβ)2+ λ | El | βEl | El |l1]metroyonorte(β0...
Algunas funciones de penalización y aproximaciones están bien estudiadas, como LASSO ( ) y Ridge ( ) y cómo se comparan en regresión.L 2L1L1L_1L2L2L_2 He estado leyendo sobre la penalización de Bridge, que es la penalización generalizada . Compare eso con el LASSO, que tiene \ gamma = 1 , y el...
Recientemente, descubrí que en la literatura de econometría aplicada, cuando se trata de problemas de selección de características, no es raro realizar LASSO seguido de una regresión de OLS utilizando las variables seleccionadas. Me preguntaba cómo podemos calificar la validez de tal...
La regresión penalizada L1 (también conocida como lazo) se presenta en dos formulaciones. Deje que las dos funciones objetivas sean Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda...
Estoy usando el paquete R penalizado para obtener estimaciones reducidas de coeficientes para un conjunto de datos donde tengo muchos predictores y poco conocimiento de cuáles son importantes. Después de haber elegido los parámetros de ajuste L1 y L2 y estoy satisfecho con mis coeficientes, ¿hay...
Todos estamos familiarizados con la idea, bien documentada en la literatura, de que la optimización de LASSO (en aras de la simplicidad limita aquí la atención al caso de la regresión lineal) es equivalente al modelo lineal con errores gaussianos en el que los parámetros reciben la Laplace...