¿Por qué Lasso o ElasticNet funcionan mejor que Ridge cuando las características están correlacionadas?

17

Tengo un conjunto de 150 características, y muchas de ellas están altamente correlacionadas entre sí. Mi objetivo es predecir el valor de una variable discreta, cuyo rango es 1-8 . Mi tamaño de muestra es 550 , y estoy usando una validación cruzada 10 veces .

AFAIK, entre los métodos de regularización (Lasso, ElasticNet y Ridge), Ridge es más riguroso para la correlación entre las características. Es por eso que esperaba que con Ridge, obtuviera una predicción más precisa. Sin embargo, mis resultados muestran que el error absoluto medio de Lasso o Elastic es de alrededor de 0.61, mientras que este puntaje es de 0.97 para la regresión de cresta. Me pregunto cuál sería una explicación para esto. ¿Es esto porque tengo muchas funciones y Lasso funciona mejor porque hace una especie de selección de funciones, eliminando las funciones redundantes?

Renakre
fuente
1
¿Por qué crees que la cresta debería funcionar mejor? ¿Cuál es su tamaño de muestra?
bdeonovic
1
¿Qué significa "más riguroso para la regresión"?
bdeonovic

Respuestas:

21

Suponga que tiene dos variables predictoras altamente correlacionadas , y suponga que ambas están centradas y escaladas (para significar cero, la varianza uno). Entonces, la penalización de cresta en el vector de parámetros es β 2 1 + β 2 2, mientras que el término de penalización de lazo es β 1+ β 2 . Ahora, dado que se supone que el modelo es altamente colineal, de modo que x y z más o menos pueden sustituirse entre sí al predecir Y , tantas combinaciones lineales de x , z donde simplemente sustituimos en partex,zβ12+β22β1+β2xzYx,z para z , funcionará de manera muy similar a los predictores, por ejemplo 0.2 x + 0.8 x , 0.3 x + 0.7 z o 0.5 x + 0.5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zserá casi igual de bueno como predictores. Ahora mire estos tres ejemplos, la penalización de lazo en los tres casos es igual, es 1, mientras que la penalización de cresta difiere, es respectivamente 0.68, 0.58, 0.5, por lo que la penalización de cresta preferirá ponderación igual de las variables colineales mientras que la penalización de lazo No podrá elegir. Esta es una de las razones por las que la cresta (o más generalmente, la red elástica, que es una combinación lineal de penalizaciones por lazo y cresta) funcionará mejor con los predictores colineales: cuando los datos dan pocas razones para elegir entre diferentes combinaciones lineales de predictores colineales, el lazo simplemente "deambular" mientras la cresta tiende a elegir igual ponderación. ¡Eso último podría ser una mejor suposición para usar con datos futuros! Y, si es así con los datos actuales, podría aparecer en la validación cruzada como mejores resultados con la cresta.

Podemos ver esto de una manera bayesiana: la cresta y el lazo implican información previa diferente, y la información previa implicada por la cresta tiende a ser más razonable en tales situaciones. (Esta explicación aquí la aprendí, más o menos, del libro: "Aprendizaje estadístico con la dispersión, el lazo y las generalizaciones" de Trevor Hastie, Robert Tibshirani y Martin Wainwright, pero en este momento no pude encontrar una cita directa).

kjetil b halvorsen
fuente
44
Buen punto sobre la posibilidad de que la cresta funcione mejor en datos futuros. Con demasiada frecuencia se pasa por alto la distinción entre el error en la validación cruzada en los datos actuales y la utilidad en los datos nuevos. Para alguna estimación de este último, el OP podría repetir los procesos completos de construcción de modelos LASSO, red elástica y cresta en múltiples muestras de arranque de los datos, y luego examinar los errores cuando se aplican al conjunto completo de datos. Eso al menos pone a prueba el proceso de construcción del modelo.
EdM
No me resulta obvio por qué sería ventajoso elegir pesos iguales para datos colineales. ¿Alguien puede dar más detalles sobre ese punto?
Ramon Martinez
3

La diferencia más importante entre el lazo y la cresta es que el lazo naturalmente hace una selección, especialmente donde las covariables están muy correlacionadas. Es imposible estar realmente seguro sin ver los coeficientes ajustados, pero es fácil pensar que entre esas características correlacionadas, muchas eran simplemente inútiles.

carlo
fuente