Recuerdo haber leído en algún lugar de la web una conexión entre la regresión de cresta (con regularización) y la regresión de PCA: mientras usaba regresión con hiperparámetro , si , entonces la regresión es equivalente a eliminar el Variable de PC con el valor propio más pequeño.ℓ 2 λ λ → 0
- ¿Por qué es esto cierto?
- ¿Tiene esto algo que ver con el procedimiento de optimización? Ingenuamente, hubiera esperado que fuera equivalente a OLS.
- ¿Alguien tiene una referencia para esto?
Respuestas:
Sea la matriz predictora centrada y considere su descomposición en valores singulares con siendo una matriz diagonal con elementos diagonales . n × p X = U S V ⊤ S s iX n×p X=USV⊤ S si
Los valores ajustados de la regresión de mínimos cuadrados ordinarios (MCO) están dados porLos valores ajustados de la regresión de cresta están dados porLos valores ajustados de la regresión PCA (PCR) con componentes están dados porY ridge=Xβridge=X(X⊤X+λI)-1X⊤y=U
Desde aquí podemos ver que:
Si entonces .λ = 0 y^r i d g e= y^O L S
Si , cuanto mayor sea el valor singular , menos será penalizado en la regresión de cresta. Los valores singulares pequeños ( y menores) son los más penalizados.λ > 0 syo s2yo≈ λ
En contraste, en la regresión de PCA, los valores singulares grandes se mantienen intactos, y los pequeños (después de cierto número ) se eliminan por completo. Esto correspondería a para los primeros unos y para el resto.k λ = 0 k λ = ∞
Esto significa que la regresión de cresta puede verse como una "versión suave" de PCR.
(Esta intuición es útil pero no siempre se cumple; por ejemplo, si todos los son aproximadamente iguales, entonces la regresión de cresta solo podrá penalizar todos los componentes principales de aproximadamente por igual y puede ser muy diferente de la PCR).syo X
La regresión de crestas tiende a tener un mejor desempeño en la práctica (por ejemplo, tener un mayor rendimiento de validación cruzada).
Responde ahora su pregunta específicamente: si , entonces . No veo cómo puede corresponder eliminar el más pequeño . Creo que esto está mal.λ → 0 y^r i d g e→ y^O L S syo
Una buena referencia es The Elements of Statistical Learning , Sección 3.4.1 "Regresión de cresta".
Vea también este hilo: Interpretación de la regularización de crestas en regresión y, en particular, la respuesta de @BrianBorchers.
fuente
Elementos de aprendizaje estadístico tiene una gran discusión sobre esta conexión.
La forma en que interpreté esta conexión y lógica es la siguiente:
La conexión PCA es que Ridge Regression está calculando las combinaciones lineales de las características para determinar dónde se produce la multicolinealidad. Las combinaciones lineales de características (análisis de componentes principales) con la varianza más pequeña (y, por lo tanto, valores singulares más pequeños y valores propios más pequeños en PCA) son las más penalizadas.
Piénsalo de esta manera; Para las combinaciones lineales de características con la varianza más pequeña, hemos encontrado las características que son más parecidas, lo que provoca la multicolinealidad. Dado que Ridge no reduce el conjunto de características, independientemente de la dirección que describa esta combinación lineal, la característica original correspondiente a esa dirección es la que más se penaliza.
fuente
Ambos métodos debilitan el impacto de los subespacios correspondientes a valores pequeños. PCA lo hace de una manera difícil, mientras que la cresta es un enfoque más suave.
fuente