Soy nuevo en ML. Me informaron que la normalización L2 de la regresión de cresta no castiga la intercepción . Como en la función de costo: El término de normalización L2 solo suma de a , no de a . También leí eso:
en la mayoría de los casos (¿todos los casos?), es mejor no regularizar , ya que es poco probable que reduzca el sobreajuste y reduzca el espacio de funciones representables
que proviene de la última respuesta del usuario 48956 de ¿Por qué un modelo de regresión lineal de intersección cero predice mejor que un modelo con una intersección?
Estoy confundido acerca de cómo resolver la derivada de la función de costo, ya que: donde , y .
y son diferentes. Por lo tanto, no se pueden mezclar desde mi punto de vista. Y la derivada es acerca de , que contiene . Después de buscar en Google y ver las preguntas en este foro, todavía no hay forma de obtener la solución: ¿Alguien puede darme una pista? ¡Gracias de antemano por tu ayuda!
Sin embargo, creo que hay dos soluciones rápidas a este problema:
En primer lugar, no añadimos toda la columna de la 1 a . A saber, . Es decir, no incluimos la intersección en absoluto en el modelo: Creo que este método se adoptó en el clásico libro Machine Learning in Action de Peter Harrington que estoy leyendo actualmente. En su implementación de regresión de cresta (P166 y P177 si también tiene el libro), toda la pasada a la regresión de cresta no tiene la columna 1.
En segundo lugar, la intercepción también está siendo castigada en la realidad.
La regresión logística de scikit regulariza la intercepción por defecto.
que una vez más proviene de la última respuesta del usuario 48956 de ¿Por qué un modelo de regresión lineal de intersección cero predice mejor que un modelo con una intersección?
Ambas soluciones rápidas conducen a la solución
Entonces, ¿se puede resolver la derivada de la normalización L2 de la regresión de cresta o solo se resuelven con soluciones rápidas?
Respuestas:
Los elementos del aprendizaje estadístico por Hastie et al. señala en P63 que:
Además, dice:
Aunque me pregunto por qué The Elements of Statistical Learning primero sugiere la estandarización de características y luego solo se realiza el centrado de características. Tal vez para estar de acuerdo con el ejercicio 3.5, que solo utiliza el centrado de funciones.
De todos modos, creo que es correcto aplicar la estandarización de puntaje z a las características. Así que ahora trato de resolver la derivada de la función de costo de la regresión de cresta siguiendo la sugerencia de la ameba comentarista anterior. ¡Muchas gracias!
Primero, la función de costo: donde es la media del atributo y es la desviación estándar de . Para hacerlo más corto: Ahora calculamos primero el valor de
Por lo tanto, la intersección de la regresión de cresta estandarizada por características es siempre . Por lo tanto, si primero centralizamos restando su media (get para el ejemplo de datos ), no incluimos todas las 1 columnas en , y luego hacemos estandarización de características en (get para del ejemplo de datos ) , la función de costo será simplemente Eso esy¯¯¯ Y (yyo)′ yo X X (X( i )j)′ Xj yo
fuente