Relación entre la regresión de cresta y la regresión de PCA

19

Recuerdo haber leído en algún lugar de la web una conexión entre la regresión de cresta (con regularización) y la regresión de PCA: mientras usaba regresión con hiperparámetro , si , entonces la regresión es equivalente a eliminar el Variable de PC con el valor propio más pequeño.2 λ λ 022λλ0 0

  • ¿Por qué es esto cierto?
  • ¿Tiene esto algo que ver con el procedimiento de optimización? Ingenuamente, hubiera esperado que fuera equivalente a OLS.
  • ¿Alguien tiene una referencia para esto?
Jose G
fuente
1
¿Podría explicar más explícitamente cómo PCA y la regresión están conectados en su declaración? La regresión distingue las variables dependientes de las independientes, mientras que nada de eso ocurre en PCA. Entonces, ¿a qué variables está aplicando PCA? No pueden ser solo las variables independientes, ya que eso tendría poco que ver con la regresión. Pero si se aplica a todas las variables, entonces los vectores propios son combinaciones lineales de todas ellas. ¿Qué podría significar eliminar cualquiera de estos componentes del conjunto de datos, ya que involucra la variable dependiente?
whuber
1
La conexión (según tengo entendido) es que si usa una penalización de regularización muy pequeña, una regresión regularizada L2 eliminaría la variable que tiene el valor propio más pequeño. Por lo tanto, hacer SVD en la matriz de diseño y eliminar la variable con el valor propio más pequeño es equivalente a una regresión con una penalización de regularización "blanda" ... Esta es la explicación más cercana que he encontrado a esto: sites.stat.psu. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf
Jose G
3
Su referencia parece demostrar lo contrario de lo que dice en sus comentarios: para small , hay muy pocos cambios en los resultados. Nada se elimina en absoluto. De hecho, varias diapositivas parecen apuntar a señalar la diferencia entre la regresión penalizada (en la que las estimaciones se reducen a ) y la "regresión PCA" (en la que los componentes más pequeños se eliminan por completo, lo que puede ser algo muy malo En algunas circunstancias). L 2 0λL20 0
whuber
2
Mmm .. encontró otra referencia: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf En la diapositiva, " y componentes principales", dice que la regresión de cresta se proyecta sobre estos componentes con grandes dj * suspiro *yryoresolmi
Jose G
3
¿Notaste que p. 14 de esa última referencia responde explícitamente a su pregunta?
whuber

Respuestas:

23

Sea la matriz predictora centrada y considere su descomposición en valores singulares con siendo una matriz diagonal con elementos diagonales . n × p X = U S VS s iXnorte×pagX=USVSsyo

Los valores ajustados de la regresión de mínimos cuadrados ordinarios (MCO) están dados porLos valores ajustados de la regresión de cresta están dados porLos valores ajustados de la regresión PCA (PCR) con componentes están dados porY ridge=Xβridge=X(XX+λI)-1Xy=U

y^OLS=XβOLS=X(XX)-1Xy=UUy.
k y PCR=XPCAβPCR=U
y^ryoresolmi=Xβryoresolmi=X(XX+λyo)-1Xy=Ureyounsol{syo2syo2+λ}Uy.
k
y^PAGCR=XPAGCUNβPAGCR=Ureyounsol{1,...,1,0 0,...0 0}Uy,
donde hay unos seguidos de ceros.k

Desde aquí podemos ver que:

  1. Si entonces .λ=0 0y^ryoresolmi=y^OLS

  2. Si , cuanto mayor sea el valor singular , menos será penalizado en la regresión de cresta. Los valores singulares pequeños ( y menores) son los más penalizados.λ>0 0syosyo2λ

  3. En contraste, en la regresión de PCA, los valores singulares grandes se mantienen intactos, y los pequeños (después de cierto número ) se eliminan por completo. Esto correspondería a para los primeros unos y para el resto.kλ=0 0kλ=

  4. Esto significa que la regresión de cresta puede verse como una "versión suave" de PCR.

    (Esta intuición es útil pero no siempre se cumple; por ejemplo, si todos los son aproximadamente iguales, entonces la regresión de cresta solo podrá penalizar todos los componentes principales de aproximadamente por igual y puede ser muy diferente de la PCR).syoX

  5. La regresión de crestas tiende a tener un mejor desempeño en la práctica (por ejemplo, tener un mayor rendimiento de validación cruzada).

  6. Responde ahora su pregunta específicamente: si , entonces . No veo cómo puede corresponder eliminar el más pequeño . Creo que esto está mal.λ0 0y^ryoresolmiy^OLSsyo

Una buena referencia es The Elements of Statistical Learning , Sección 3.4.1 "Regresión de cresta".


Vea también este hilo: Interpretación de la regularización de crestas en regresión y, en particular, la respuesta de @BrianBorchers.

ameba dice Reinstate Monica
fuente
syo-βLmiunst-sqtuunrmis
k
Udiag(11,12,...,1k,0 0,...,0 0)UTy
Esto es hermoso.
xxx222
6

Elementos de aprendizaje estadístico tiene una gran discusión sobre esta conexión.

La forma en que interpreté esta conexión y lógica es la siguiente:

  • PCA es una combinación lineal de las variables de características, que intenta maximizar la varianza de los datos explicados por el nuevo espacio.
  • Los datos que sufren de multicolinealidad (o más predictores que filas de datos) conducen a una matriz de covarianza que no tiene rango completo.
  • Con esta matriz de covarianza, no podemos invertir para determinar la solución de mínimos cuadrados; esto hace que la aproximación numérica de los coeficientes de mínimos cuadrados explote hasta el infinito.
  • La regresión de cresta introduce la penalización Lambda en la matriz de covarianza para permitir la inversión de la matriz y la convergencia de los coeficientes LS.

La conexión PCA es que Ridge Regression está calculando las combinaciones lineales de las características para determinar dónde se produce la multicolinealidad. Las combinaciones lineales de características (análisis de componentes principales) con la varianza más pequeña (y, por lo tanto, valores singulares más pequeños y valores propios más pequeños en PCA) son las más penalizadas.

Piénsalo de esta manera; Para las combinaciones lineales de características con la varianza más pequeña, hemos encontrado las características que son más parecidas, lo que provoca la multicolinealidad. Dado que Ridge no reduce el conjunto de características, independientemente de la dirección que describa esta combinación lineal, la característica original correspondiente a esa dirección es la que más se penaliza.

MDornbos
fuente
2

Xβ=y,
X
X=USVT,
S=diag(syo)

β

βOLS=VS-1UT
syo

S-1β

Scresta-1=diag(syosyo2+α),βcresta= VScresta-1UT

S-1

SPCA-1=diag(1syoθ(syo-γ)),βPCA= VSPCA-1UT
θγ

Ambos métodos debilitan el impacto de los subespacios correspondientes a valores pequeños. PCA lo hace de una manera difícil, mientras que la cresta es un enfoque más suave.

SmyReg-1=diag(R(syo)),
R(X)X0 0R(X)X-1X

davidhigh
fuente