En la página 223 en Introducción al aprendizaje estadístico , los autores resumen las diferencias entre la regresión de cresta y el lazo. Proporcionan un ejemplo (Figura 6.9) de cuándo "el lazo tiende a superar la regresión de cresta en términos de sesgo, varianza y MSE".
Entiendo por qué el lazo puede ser deseable: da como resultado soluciones dispersas ya que reduce muchos coeficientes a 0, lo que resulta en modelos simples e interpretables. Pero no entiendo cómo puede superar a la cresta cuando solo las predicciones son de interés (es decir, ¿cómo está obteniendo un MSE sustancialmente menor en el ejemplo?).
Con la cresta, si muchos predictores casi no tienen efecto en la respuesta (con algunos predictores que tienen un gran efecto), ¿sus coeficientes simplemente no se reducirán a un pequeño número muy cercano a cero ... dando como resultado algo muy similar al lazo? ? Entonces, ¿por qué el modelo final tendría un rendimiento peor que el lazo?
fuente
Respuestas:
Tienes razón al hacer esta pregunta. En general, cuando se usa una regla de puntuación de precisión adecuada (por ejemplo, error de predicción cuadrático medio), la regresión de cresta superará al lazo. Lasso gasta parte de la información tratando de encontrar los predictores "correctos" y en muchos casos ni siquiera es bueno hacerlo. El rendimiento relativo de los dos dependerá de la distribución de los coeficientes de regresión verdaderos. Si tiene una pequeña fracción de coeficientes distintos de cero en verdad, el lazo puede funcionar mejor. Personalmente, uso la cresta casi todo el tiempo cuando estoy interesado en la precisión predictiva.
fuente
Creo que la configuración específica del ejemplo al que hace referencia es clave para comprender por qué el lazo supera a la cresta: solo 2 de 45 predictores son realmente relevantes.
Esto limita con un caso patológico: el lazo, específicamente destinado a facilitar las reducciones a cero, funciona exactamente como se esperaba, mientras que la cresta tendrá que lidiar con una gran cantidad de términos inútiles (incluso su efecto se reduce a cero, todavía es un efecto distinto de cero).
fuente