Relación entre la regresión de cresta y la regresión de PCA

Recuerdo haber leído en algún lugar de la web una conexión entre la regresión de cresta (con regularización) y la regresión de PCA: mientras usaba regresión con hiperparámetro , si , entonces la regresión es equivalente a eliminar el Variable de PC con el valor propio más pequeño. $\ell_2$ $\ell_2$ $\lambda$ $\lambda \to 0$

¿Por qué es esto cierto?
¿Tiene esto algo que ver con el procedimiento de optimización? Ingenuamente, hubiera esperado que fuera equivalente a OLS.
¿Alguien tiene una referencia para esto?

regression pca regularization ridge-regression Jose G
fuente

¿Podría explicar más explícitamente cómo PCA y la regresión están conectados en su declaración? La regresión distingue las variables dependientes de las independientes, mientras que nada de eso ocurre en PCA. Entonces, ¿a qué variables está aplicando PCA? No pueden ser solo las variables independientes, ya que eso tendría poco que ver con la regresión. Pero si se aplica a todas las variables, entonces los vectores propios son combinaciones lineales de todas ellas. ¿Qué podría significar eliminar cualquiera de estos componentes del conjunto de datos, ya que involucra la variable dependiente?

whuber

La conexión (según tengo entendido) es que si usa una penalización de regularización muy pequeña, una regresión regularizada L2 eliminaría la variable que tiene el valor propio más pequeño. Por lo tanto, hacer SVD en la matriz de diseño y eliminar la variable con el valor propio más pequeño es equivalente a una regresión con una penalización de regularización "blanda" ... Esta es la explicación más cercana que he encontrado a esto: sites.stat.psu. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf

Jose G

Su referencia parece demostrar lo contrario de lo que dice en sus comentarios: para small , hay muy pocos cambios en los resultados. Nada se elimina en absoluto. De hecho, varias diapositivas parecen apuntar a señalar la diferencia entre la regresión penalizada (en la que las estimaciones se reducen a ) y la "regresión PCA" (en la que los componentes más pequeños se eliminan por completo, lo que puede ser algo muy malo En algunas circunstancias).

λ

$\lambda$

L^{2}

$L^2$

0

$0$

whuber

Mmm .. encontró otra referencia: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf En la diapositiva, " y componentes principales", dice que la regresión de cresta se proyecta sobre estos componentes con grandes dj * suspiro *

y^{r i d g e}

$y^{ridge}$

Jose G

¿Notaste que p. 14 de esa última referencia responde explícitamente a su pregunta?

whuber

Respuestas:

Sea la matriz predictora centrada y considere su descomposición en valores singulares con siendo una matriz diagonal con elementos diagonales . $\mathbf X$ $n \times p$ $\mathbf X = \mathbf{USV}^\top$ $\mathbf S$ $s_i$

Los valores ajustados de la regresión de mínimos cuadrados ordinarios (MCO) están dados porLos valores ajustados de la regresión de cresta están dados porLos valores ajustados de la regresión PCA (PCR) con componentes están dados por

{\hat{y}}_{O L S} = X β_{O L S} = X (X^{⊤} X)^{- 1} X^{⊤} y = U U^{⊤} y .

$\hat {\mathbf y}_\mathrm{OLS} = \mathbf X \beta_\mathrm{OLS} = \mathbf X (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf y = \mathbf U \mathbf U^\top \mathbf y.$

{\hat{y}}_{r yo re sol mi} = X β_{r yo re sol mi} = X (X^{⊤} X + λ yo)^{- 1} X^{⊤} y = U re yo un sol {\frac{s_{yo}^{2}}{s_{yo}^{2} + λ}} U^{⊤} y .

$\hat {\mathbf y}_\mathrm{ridge} = \mathbf X \beta_\mathrm{ridge} = \mathbf X (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y = \mathbf U\: \mathrm{diag}\left\{\frac{s_i^2}{s_i^2+\lambda}\right\}\mathbf U^\top \mathbf y.$

k

$k$

{\hat{y}}_{PAG C R} = X_{PAG C UN} β_{PAG C R} = U re yo un sol {1, ..., 1, 0 0, ... 0 0} U^{⊤} y,

$\hat {\mathbf y}_\mathrm{PCR} = \mathbf X_\mathrm{PCA} \beta_\mathrm{PCR} = \mathbf U\: \mathrm{diag}\left\{1,\ldots, 1, 0, \ldots 0\right\}\mathbf U^\top \mathbf y,$ donde hay unos seguidos de ceros.

k

$k$

Desde aquí podemos ver que:

Si entonces . $\lambda=0$ $\hat {\mathbf y}_\mathrm{ridge} = \hat {\mathbf y}_\mathrm{OLS}$
Si , cuanto mayor sea el valor singular , menos será penalizado en la regresión de cresta. Los valores singulares pequeños ( y menores) son los más penalizados. $\lambda>0$ $s_i$ $s_i^2 \approx \lambda$
En contraste, en la regresión de PCA, los valores singulares grandes se mantienen intactos, y los pequeños (después de cierto número ) se eliminan por completo. Esto correspondería a para los primeros unos y para el resto. $k$ $\lambda=0$ $k$ $\lambda=\infty$
Esto significa que la regresión de cresta puede verse como una "versión suave" de PCR.

(Esta intuición es útil pero no siempre se cumple; por ejemplo, si todos los son aproximadamente iguales, entonces la regresión de cresta solo podrá penalizar todos los componentes principales de aproximadamente por igual y puede ser muy diferente de la PCR). $s_i$ $\mathbf X$
La regresión de crestas tiende a tener un mejor desempeño en la práctica (por ejemplo, tener un mayor rendimiento de validación cruzada).
Responde ahora su pregunta específicamente: si , entonces . No veo cómo puede corresponder eliminar el más pequeño . Creo que esto está mal. $\lambda \to 0$ $\hat {\mathbf y}_\mathrm{ridge} \to \hat {\mathbf y}_\mathrm{OLS}$ $s_i$

Una buena referencia es The Elements of Statistical Learning , Sección 3.4.1 "Regresión de cresta".

Vea también este hilo: Interpretación de la regularización de crestas en regresión y, en particular, la respuesta de @BrianBorchers.

ameba dice Reinstate Monica
fuente

s_{i} -

$s_i -$

β_{L e a s t - s q u a r e s}

$\beta_{Least-squares}$

k

$k$

U diag (1_{1}, 1_{2}, . . ., 1_{k}, 0 0, . . ., 0 0) U^{T} y

$\mathbf{U} {\text{diag}}(1_1,1_2,...,1_k,0,...,0)\mathbf{U}^T\mathbf{y}$

Esto es hermoso.

xxx222

Elementos de aprendizaje estadístico tiene una gran discusión sobre esta conexión.

La forma en que interpreté esta conexión y lógica es la siguiente:

PCA es una combinación lineal de las variables de características, que intenta maximizar la varianza de los datos explicados por el nuevo espacio.
Los datos que sufren de multicolinealidad (o más predictores que filas de datos) conducen a una matriz de covarianza que no tiene rango completo.
Con esta matriz de covarianza, no podemos invertir para determinar la solución de mínimos cuadrados; esto hace que la aproximación numérica de los coeficientes de mínimos cuadrados explote hasta el infinito.
La regresión de cresta introduce la penalización Lambda en la matriz de covarianza para permitir la inversión de la matriz y la convergencia de los coeficientes LS.

La conexión PCA es que Ridge Regression está calculando las combinaciones lineales de las características para determinar dónde se produce la multicolinealidad. Las combinaciones lineales de características (análisis de componentes principales) con la varianza más pequeña (y, por lo tanto, valores singulares más pequeños y valores propios más pequeños en PCA) son las más penalizadas.

Piénsalo de esta manera; Para las combinaciones lineales de características con la varianza más pequeña, hemos encontrado las características que son más parecidas, lo que provoca la multicolinealidad. Dado que Ridge no reduce el conjunto de características, independientemente de la dirección que describa esta combinación lineal, la característica original correspondiente a esa dirección es la que más se penaliza.

MDornbos
fuente

X β = y,

$\mathbf X \beta = \mathbf y\,,$

X

$\mathbf X$

X = U S V^{T},

$\mathbf X = \mathbf U \,\mathbf S \,\mathbf V^T,$

S = diag (s_{i})

$\mathbf S = \text{diag}(s_i)$

$\beta$

β_{O L S} = V S^{- 1} U^{T}

$\beta_{OLS} = \mathbf V \,\mathbf S^{-1} \,\mathbf U^T$

s_{i}

$s_i$

$\mathbf S^{-1}$ $\beta$

\begin{aligned} S_{cresta}^{- 1} & = diag (\frac{s_{yo}}{s_{yo}^{2} + α}), \\ β_{cresta} & = V S_{cresta}^{- 1} U^{T} \end{aligned}

$\begin{align} \mathbf S^{-1}_{\text{ridge}} &= \text{diag}\bigg(\frac{s_i}{s^2_i+\alpha}\bigg),\\ \beta_{\text{ridge}} &= \ \mathbf V \,\mathbf S_{\text{ridge}}^{-1} \,\mathbf U^T \end{align}$

$\mathbf S^{-1}$

\begin{aligned} S_{PCA}^{- 1} & = diag (\frac{1}{s_{yo}} θ (s_{yo} - γ)), \\ β_{PCA} & = V S_{PCA}^{- 1} U^{T} \end{aligned}

$\begin{align} \mathbf S^{-1}_{\text{PCA}} &= \text{diag}\bigg(\frac{1}{s_i} \, \theta(s_i-\gamma)\bigg)\,,\\ \beta_{\text{PCA}} &= \ \mathbf V \,\mathbf S_{\text{PCA}}^{-1} \,\mathbf U^T \end{align}$

θ

$\theta$

γ

$\gamma$

Ambos métodos debilitan el impacto de los subespacios correspondientes a valores pequeños. PCA lo hace de una manera difícil, mientras que la cresta es un enfoque más suave.

S_{myReg}^{- 1} = diag (R (s_{yo})),

$\mathbf S^{-1}_{\text{myReg}} = \text{diag}\big(R(s_i)\big)\,,$

R (x)

$R(x)$

x \to 0

$x\rightarrow 0$

R (x) \to x^{- 1}

$R(x)\rightarrow x^{-1}$

x

$x$

davidhigh
fuente