Si solo la predicción es interesante, ¿por qué usar el lazo sobre la cresta?

37

En la página 223 en Introducción al aprendizaje estadístico , los autores resumen las diferencias entre la regresión de cresta y el lazo. Proporcionan un ejemplo (Figura 6.9) de cuándo "el lazo tiende a superar la regresión de cresta en términos de sesgo, varianza y MSE".

Entiendo por qué el lazo puede ser deseable: da como resultado soluciones dispersas ya que reduce muchos coeficientes a 0, lo que resulta en modelos simples e interpretables. Pero no entiendo cómo puede superar a la cresta cuando solo las predicciones son de interés (es decir, ¿cómo está obteniendo un MSE sustancialmente menor en el ejemplo?).

Con la cresta, si muchos predictores casi no tienen efecto en la respuesta (con algunos predictores que tienen un gran efecto), ¿sus coeficientes simplemente no se reducirán a un pequeño número muy cercano a cero ... dando como resultado algo muy similar al lazo? ? Entonces, ¿por qué el modelo final tendría un rendimiento peor que el lazo?

Oliver Angelil
fuente
2
Vi ese enlace. No responde la pregunta.
Oliver Angelil

Respuestas:

34

Tienes razón al hacer esta pregunta. En general, cuando se usa una regla de puntuación de precisión adecuada (por ejemplo, error de predicción cuadrático medio), la regresión de cresta superará al lazo. Lasso gasta parte de la información tratando de encontrar los predictores "correctos" y en muchos casos ni siquiera es bueno hacerlo. El rendimiento relativo de los dos dependerá de la distribución de los coeficientes de regresión verdaderos. Si tiene una pequeña fracción de coeficientes distintos de cero en verdad, el lazo puede funcionar mejor. Personalmente, uso la cresta casi todo el tiempo cuando estoy interesado en la precisión predictiva.

Frank Harrell
fuente
1
¿Hay casos en los que no está interesado en la precisión predictiva?
Walrus the Cat
1
@WalrustheCat Algunas personas, normalmente estéreo, provenientes de Stanford, abogan por el uso de Lasso en la selección de variables de alta dimensión. Presumiblemente, Frank quiso decir "... principalmente interesado en la precisión predictiva" en lugar de simplemente "... interesado en la precisión predictiva", aunque, en mi opinión, la diferencia entre estos dos es dos pedantes para ser útil.
John Madden
Nunca he entendido el enfoque de "regularización como reducción de dimensionalidad". Puede realizar una reducción de dimensionalidad, ya sea a través de la regularización de lazo o no, y luego usar la mejor función de regularización para su problema original en las características resultantes. Pero yo divago.
Walrus the Cat
99
De "En general, la [...] regresión de cresta superará al lazo" y "Si tiene una pequeña fracción de coeficientes distintos de cero en verdad, el lazo puede funcionar mejor", parece deducirse que en la mayoría de los problemas de predicción la verdad básica no es escasa. ¿Es esto lo que estás diciendo?
ameba dice Reinstate Monica
55
Si, principalmente. Si conoce la verdad fundamental "en distribución", crearía una distribución bayesiana previa para los coeficientes de regresión desconocidos que le proporcionarían resultados óptimos. E incluso cuando, digamos, 3/4 de los predictores tienen exactamente cero efecto, la cresta es competitiva con el lazo.
Frank Harrell
11

Creo que la configuración específica del ejemplo al que hace referencia es clave para comprender por qué el lazo supera a la cresta: solo 2 de 45 predictores son realmente relevantes.

Esto limita con un caso patológico: el lazo, específicamente destinado a facilitar las reducciones a cero, funciona exactamente como se esperaba, mientras que la cresta tendrá que lidiar con una gran cantidad de términos inútiles (incluso su efecto se reduce a cero, todavía es un efecto distinto de cero).

mbrig
fuente