La regresión de crestas regulariza la regresión lineal imponiendo una penalización sobre el tamaño de los coeficientes. Por lo tanto, los coeficientes se reducen hacia cero y uno hacia el otro. Pero cuando esto sucede y si las variables independientes no tienen la misma escala, la reducción no es justa. Dos variables independientes con diferentes escalas tendrán diferentes contribuciones a los términos penalizados, porque el término penalizado es una suma de cuadrados de todos los coeficientes. Para evitar este tipo de problemas, muy a menudo, las variables independientes se centran y escalan para tener varianza 1.
[Más tarde editar para responder al comentario]
h e i gh t . Ahora, la altura humana podría medirse en pulgadas, metros o kilómetros. Si se mide en kilómetros, que en la regresión lineal estándar, creo que dará un término de coeficiente mucho mayor que si se mide en milímetros.
El término de penalización con lambda es el mismo que expresar la función de pérdida cuadrada con respecto a la suma de coeficientes cuadrados menores o iguales a una constante dada. Eso significa que una lambda más grande le da mucho espacio a la suma al cuadrado de los coeficientes, y una lambda más baja un espacio más pequeño. Espacio mayor o menor significa valores absolutos mayores o menores de los coeficientes.
Al no utilizar la estandarización, para ajustar el modelo puede requerir grandes valores absolutos de los coeficientes. Por supuesto, podríamos tener un valor de coeficiente grande naturalmente, debido al papel de la variable en el modelo. Lo que afirmo es que este valor podría tener un valor inflado artificialmente debido a la no escala. Entonces, la escala también disminuye la necesidad de grandes valores de coeficientes. Por lo tanto, el valor óptimo de lambda suele ser menor, lo que corresponde a una suma menor de valores cuadrados de coeficientes.
Aunque cuatro años tarde, espero que alguien se beneficie de esto ... Según lo entendí, coeff es cuánto cambia la variable objetivo para un cambio de unidad en una variable independiente (dy / dx). Supongamos que estamos estudiando la relación entre peso y altura, y el peso se mide en Kg. Cuando usamos kilómetros para la altura, puede imaginarse que la mayoría de los puntos de datos (para la altura humana) se empaquetan estrechamente. Por lo tanto, para un pequeño cambio fraccional en la altura habrá un gran cambio en el peso (suponiendo que el peso aumente con la altura). La relación dy / dx será enorme. Por otro lado, si la altura se mide en milímetros, los datos se distribuirán ampliamente en los atributos de altura. Un cambio de unidad en la altura no tendrá un cambio significativo en el peso dy / dx será muy pequeño, casi cercano a 0.
fuente