Tengo un conjunto de 150 características, y muchas de ellas están altamente correlacionadas entre sí. Mi objetivo es predecir el valor de una variable discreta, cuyo rango es 1-8 . Mi tamaño de muestra es 550 , y estoy usando una validación cruzada 10 veces .
AFAIK, entre los métodos de regularización (Lasso, ElasticNet y Ridge), Ridge es más riguroso para la correlación entre las características. Es por eso que esperaba que con Ridge, obtuviera una predicción más precisa. Sin embargo, mis resultados muestran que el error absoluto medio de Lasso o Elastic es de alrededor de 0.61, mientras que este puntaje es de 0.97 para la regresión de cresta. Me pregunto cuál sería una explicación para esto. ¿Es esto porque tengo muchas funciones y Lasso funciona mejor porque hace una especie de selección de funciones, eliminando las funciones redundantes?
Respuestas:
Suponga que tiene dos variables predictoras altamente correlacionadas , y suponga que ambas están centradas y escaladas (para significar cero, la varianza uno). Entonces, la penalización de cresta en el vector de parámetros es β 2 1 + β 2 2, mientras que el término de penalización de lazo es ∣ β 1 ∣ + ∣ β 2 ∣ . Ahora, dado que se supone que el modelo es altamente colineal, de modo que x y z más o menos pueden sustituirse entre sí al predecir Y , tantas combinaciones lineales de x , z donde simplemente sustituimos en partex,z β21+β22 ∣β1∣+∣β2∣ x z Y x,z para z , funcionará de manera muy similar a los predictores, por ejemplo 0.2 x + 0.8 x , 0.3 x + 0.7 z o 0.5 x + 0.5 zx z 0.2x+0.8x,0.3x+0.7z 0.5x+0.5z será casi igual de bueno como predictores. Ahora mire estos tres ejemplos, la penalización de lazo en los tres casos es igual, es 1, mientras que la penalización de cresta difiere, es respectivamente 0.68, 0.58, 0.5, por lo que la penalización de cresta preferirá ponderación igual de las variables colineales mientras que la penalización de lazo No podrá elegir. Esta es una de las razones por las que la cresta (o más generalmente, la red elástica, que es una combinación lineal de penalizaciones por lazo y cresta) funcionará mejor con los predictores colineales: cuando los datos dan pocas razones para elegir entre diferentes combinaciones lineales de predictores colineales, el lazo simplemente "deambular" mientras la cresta tiende a elegir igual ponderación. ¡Eso último podría ser una mejor suposición para usar con datos futuros! Y, si es así con los datos actuales, podría aparecer en la validación cruzada como mejores resultados con la cresta.
Podemos ver esto de una manera bayesiana: la cresta y el lazo implican información previa diferente, y la información previa implicada por la cresta tiende a ser más razonable en tales situaciones. (Esta explicación aquí la aprendí, más o menos, del libro: "Aprendizaje estadístico con la dispersión, el lazo y las generalizaciones" de Trevor Hastie, Robert Tibshirani y Martin Wainwright, pero en este momento no pude encontrar una cita directa).
fuente
La diferencia más importante entre el lazo y la cresta es que el lazo naturalmente hace una selección, especialmente donde las covariables están muy correlacionadas. Es imposible estar realmente seguro sin ver los coeficientes ajustados, pero es fácil pensar que entre esas características correlacionadas, muchas eran simplemente inútiles.
fuente