Regresión lineal regular vs. regresión RKHS

9

Estoy estudiando la diferencia entre la regularización en la regresión RKHS y la regresión lineal, pero me resulta difícil comprender la diferencia crucial entre los dos.

(xi,yi)f()

f(x)u(x)=i=1mαiK(x,xi),
K(,)αm
minαRn1nYKαRn2+λαTKα,
donde, con algún abuso de notación, la entrada i,j de la matriz del núcleo K es K(xi,xj) . Esto da
α=(K+λnI)1Y.
Alternativamente, podríamos tratar el problema como un problema de regresión lineal / regresión lineal:
minαRn1nYKαRn2+λαTα,
con solución
α=(KTK+λnI)1KTY.

¿Cuál sería la diferencia crucial entre estos dos enfoques y sus soluciones?

MthQ
fuente
@MThQ - ¿Su descripción de la regresión de cresta 'normal' todavía no funciona en el dual? Solo para aclarar que creo que se supone que la regresión de cresta normal funciona en el primario (donde se realiza la representación explícita de características).
rnoodle

Respuestas:

5

Como probablemente haya notado al escribir los problemas de optimización, la única diferencia en la minimización es qué norma de Hilbert usar para la penalización. Es decir, cuantificar qué valores 'grandes' de son para fines de penalización. En la configuración RKHS, utilizamos el producto interno RKHS, , mientras que la regresión de cresta penaliza con respecto a la norma euclidiana.ααtKα

Una consecuencia teórica interesante es cómo cada efectos de método del espectro de la reproducción del núcleo . Según la teoría de RKHS, tenemos que es simétrico positivo definido. Según el teorema espectral, podemos escribir donde es la matriz diagonal de los valores propios y es la matriz ortonormal de los vectores propios. En consecuencia, en la configuración RKHS, Mientras tanto, en la configuración de regresión de Ridge, tenga en cuenta que por simetría, KKK=UtDUDU

(K+λnI)1Y=[Ut(D+λnI)U]1Y=Ut[D+λnI]1UY.
KtK=K2
(K2+λnI)1KY=[Ut(D2+λnI)U]1KY=Ut[D2+λnI]1UKY=Ut[D2+λnI]1DUY=Ut[D+λnD1]1UY.
Deje que el espectro de sea . En la regresión RKHS, los valores propios se estabilizan con . En la regresión de Ridge, tenemos . Como resultado, RKHS modifica uniformemente los valores propios mientras que Ridge agrega un valor mayor si el correspondiente es más pequeño.Kν1,,νnνiνi+λnνiνi+λn/νiνi

Dependiendo de la elección del núcleo, las dos estimaciones para pueden estar cercanas o alejadas entre sí. La distancia en el sentido de la norma del operador será Sin embargo, esto todavía está limitado para una dadaα

αRKHSαRidge2=ARKHSYARidgeY2[D+λnI]1[D+λnD1]1Y2maxi=1,,n{|(νi+λn)1(νi+λn/νi)1|}Y2maxi=1,,n{λn|1νi|(νi+λn)(νi2+λn)}Y2
Y, por lo que sus dos estimadores no pueden estar arbitrariamente separados. Por lo tanto, si su núcleo está cerca de la identidad, lo más probable es que haya poca diferencia en los enfoques. Si sus núcleos son muy diferentes, los dos enfoques aún pueden conducir a resultados similares.

En la práctica, es difícil decir definitivamente si uno es mejor que el otro para una situación dada. Como estamos minimizando con respecto al error al cuadrado al representar los datos en términos de la función del núcleo, estamos eligiendo efectivamente una mejor curva de regresión del correspondiente espacio de funciones de Hilbert. Por lo tanto, penalizar con respecto al producto interno RKHS parece ser la forma natural de proceder.

Adam B Kashlak
fuente
1
¿Tiene una referencia para esto?
rnoodle