En la regresión lineal, ¿por qué la regularización penaliza también los valores de los parámetros?

9

Actualmente estoy aprendiendo regresión de cresta y estaba un poco confundido acerca de la penalización de modelos más complejos (o la definición de un modelo más complejo).

Por lo que entiendo, la complejidad del modelo no se correlaciona necesariamente con el orden polinómico. Entonces: es un modelo más complejo que:

2+3+4x2+5x3+6x4
5x5

Y sé que el punto de regularización es mantener baja la complejidad del modelo, así que, por ejemplo, tenemos un polinomio de quinto orden

f(x;w)=w0+w1x+w2x2+w3x3+w4x4+w5x5

Cuantos más parámetros sean 0, mejor.

Pero lo que no entiendo es, si era el mismo polinomio de orden, ¿por qué los valores de parámetros más bajos se penalizan menos? Entonces, ¿por qué debería:

2+5x+x3
será un modelo menos complejo que

433+342x+323x3
ambos son del mismo orden polinómico, y los valores de los parámetros simplemente dependen de los datos.

¡Gracias!

Physco111
fuente

Respuestas:

10

los valores de los parámetros simplemente dependen de los datos

Esta es la parte clave de su pregunta. Aquí es donde estás confundido.

Sí, los valores de los parámetros dependen de los datos. Pero los datos son fijos cuando ajustamos un modelo. En otras palabras, ajustamos un modelo condicional a las observaciones . No tiene sentido comparar la complejidad de diferentes modelos que se ajustaron a diferentes conjuntos de datos .

Y en el contexto de un conjunto de datos fijo, un modelo

2+5x+x3

está más cerca del modelo más simple posible, es decir, el modelo plano cero, que

433+342x+323x3,

y esto se mantiene independientemente de la escala de sus observaciones.

Por cierto, la intercepción ( y en su ejemplo) con frecuencia no se penaliza, por ejemplo, en la mayoría de las formulaciones de Lazo, porque generalmente somos buenos dejando que varíe libremente para capturar el promedio general de las observaciones. En otras palabras, reducimos el modelo hacia el promedio de las observaciones, no un modelo de cero completo (donde el cero a menudo sería arbitrario). En este sentido, un modelo plano y un modelo plano se considerarían igualmente complejos.24332433

Stephan Kolassa
fuente
1
¿Los coeficientes de magnitud más bajos están más lejos del cero plano que los coeficientes más altos? ¿Es un error tipográfico o no entiendo por qué un modelo más alejado de la constante no se penaliza tanto como un modelo más cercano a la constante?
RM
Lo siento, eso fue un error tipográfico. Déjame editar ¡Gracias por señalar esto!
Stephan Kolassa