Pregunta sobre la estandarización en la regresión de crestas

17

Hola chicos, encontré uno o dos artículos que usan regresión de cresta (para datos de baloncesto). Siempre me dijeron que estandarizara mis variables si ejecutaba una regresión de cresta, pero simplemente me dijeron que hiciera esto porque la cresta era una variante de escala (la regresión de cresta no era realmente parte de nuestro curso, por lo que nuestro profesor lo examinó).

Estos documentos que leí no estandarizaron sus variables, lo que me pareció un poco sorprendente. También terminaron con grandes valores de lambda (alrededor del nivel 2000-4000) a través de la validación cruzada, y me dijeron que esto se debe a no estandarizar las variables.

¿Cómo exactamente dejar las variables sin estandarizar conduce a valores altos de lambda y también, cuáles son las consecuencias de no estandarizar las variables en general? ¿Es realmente tan importante?

Cualquier ayuda es muy apreciada.

l_davies93
fuente

Respuestas:

18

La regresión de crestas regulariza la regresión lineal imponiendo una penalización sobre el tamaño de los coeficientes. Por lo tanto, los coeficientes se reducen hacia cero y uno hacia el otro. Pero cuando esto sucede y si las variables independientes no tienen la misma escala, la reducción no es justa. Dos variables independientes con diferentes escalas tendrán diferentes contribuciones a los términos penalizados, porque el término penalizado es una suma de cuadrados de todos los coeficientes. Para evitar este tipo de problemas, muy a menudo, las variables independientes se centran y escalan para tener varianza 1.

[Más tarde editar para responder al comentario]

hmiyosolht . Ahora, la altura humana podría medirse en pulgadas, metros o kilómetros. Si se mide en kilómetros, que en la regresión lineal estándar, creo que dará un término de coeficiente mucho mayor que si se mide en milímetros.

El término de penalización con lambda es el mismo que expresar la función de pérdida cuadrada con respecto a la suma de coeficientes cuadrados menores o iguales a una constante dada. Eso significa que una lambda más grande le da mucho espacio a la suma al cuadrado de los coeficientes, y una lambda más baja un espacio más pequeño. Espacio mayor o menor significa valores absolutos mayores o menores de los coeficientes.

Al no utilizar la estandarización, para ajustar el modelo puede requerir grandes valores absolutos de los coeficientes. Por supuesto, podríamos tener un valor de coeficiente grande naturalmente, debido al papel de la variable en el modelo. Lo que afirmo es que este valor podría tener un valor inflado artificialmente debido a la no escala. Entonces, la escala también disminuye la necesidad de grandes valores de coeficientes. Por lo tanto, el valor óptimo de lambda suele ser menor, lo que corresponde a una suma menor de valores cuadrados de coeficientes.

rapaio
fuente
Gracias. ¿Cómo no podría la estandarización conducir a un error de prueba estimado más alto (a través de la validación cruzada) y, por lo tanto, se necesita una lambda más alta?
l_davies93
Agregué mi pensamiento en la respuesta
rapaio
Sé que esta es una vieja pregunta, pero ¿podría explicar por qué el parámetro de ajuste debería aumentar, si transformamos nuestros datos de kilómetros a metros, por ejemplo
Leo96
1

Aunque cuatro años tarde, espero que alguien se beneficie de esto ... Según lo entendí, coeff es cuánto cambia la variable objetivo para un cambio de unidad en una variable independiente (dy / dx). Supongamos que estamos estudiando la relación entre peso y altura, y el peso se mide en Kg. Cuando usamos kilómetros para la altura, puede imaginarse que la mayoría de los puntos de datos (para la altura humana) se empaquetan estrechamente. Por lo tanto, para un pequeño cambio fraccional en la altura habrá un gran cambio en el peso (suponiendo que el peso aumente con la altura). La relación dy / dx será enorme. Por otro lado, si la altura se mide en milímetros, los datos se distribuirán ampliamente en los atributos de altura. Un cambio de unidad en la altura no tendrá un cambio significativo en el peso dy / dx será muy pequeño, casi cercano a 0.

usuario3358819
fuente