¿Cómo se comparan los métodos de regularización de cresta, LASSO y elasticnet? ¿Cuáles son sus respectivas ventajas y desventajas? Cualquier buen documento técnico o apuntes de clase también serán apreciados.
33
¿Cómo se comparan los métodos de regularización de cresta, LASSO y elasticnet? ¿Cuáles son sus respectivas ventajas y desventajas? Cualquier buen documento técnico o apuntes de clase también serán apreciados.
En el libro Los elementos del aprendizaje estadístico , Hastie et al. Proporcionar una comparación muy perspicaz y exhaustiva de estas técnicas de contracción. El libro está disponible en línea ( pdf ). La comparación se realiza en la sección 3.4.3, página 69.
La principal diferencia entre Lasso y Ridge es el término de penalización que usan. Ridge utiliza el término de penalización que limita el tamaño del vector de coeficiente. Lasso utiliza la penalización L 1 que impone la dispersión entre los coeficientes y, por lo tanto, hace que el modelo ajustado sea más interpretable. Elasticnet se presenta como un compromiso entre estas dos técnicas y tiene una penalización que es una combinación de las normas L 1 y L 2 .
Para resumir, aquí hay algunas diferencias importantes entre Lasso, Ridge y Elastic-net:
fuente
Le recomiendo que eche un vistazo a Una introducción al libro de aprendizaje estadístico (Tibshirani et. Al., 2013).
La razón de esto es que el libro Elementos de aprendizaje estadístico está destinado a personas con capacitación avanzada en ciencias matemáticas. En el prólogo de ISL, los autores escriben:
fuente
Las respuestas anteriores son muy claras e informativas. Me gustaría agregar un punto menor desde la perspectiva estadística. Tome la regresión de cresta como un ejemplo. Es una extensión de la regresión de mínimos cuadrados ordinales para resolver los problemas de multicolinealidad cuando hay muchas características correlacionadas. Si la regresión lineal es
La solución de ecuación normal para la regresión lineal múltiple.
La solución de ecuación normal para la regresión de cresta es
Es un estimador sesgado para b y siempre podemos encontrar un término de penalización k que hará que el error cuadrado medio de la regresión de Ridge sea más pequeño que el de la regresión OLS.
Para LASSO y Elastic-Net, no pudimos encontrar una solución analítica de este tipo.
fuente