Diferencia entre la regresión Primal, Dual y Kernel Ridge

Respuesta corta: no hay diferencia entre Primal y Dual: solo se trata de la forma de llegar a la solución. La regresión de cresta del núcleo es esencialmente la misma que la regresión de cresta habitual, pero utiliza el truco del núcleo para no ser lineal.

Regresión lineal

En primer lugar, una regresión lineal de mínimos cuadrados habitual intenta ajustar una línea recta al conjunto de puntos de datos de tal manera que la suma de los errores al cuadrado sea mínima.

ingrese la descripción de la imagen aquí

Parametrizamos la mejor línea de ajuste con $\mathbb w$ y para cada punto de datos $(\mathbf x_i, y_i)$ queremos $\mathbf w^T \mathbf x_i \approx y_i$ . Sea $e_i = y_i - \mathbf w^T \mathbf x_i$ el error: la distancia entre los valores predichos y verdaderos. Entonces, nuestro objetivo es minimizar la suma de los errores al cuadrado $\sum e_i^2 = \| \mathbf e \|^2 = \| X \mathbf w - \mathbf y \|^2$ donde - una matriz de datos con cada siendo una fila, y un vector con todas 's. $X = \begin{bmatrix} — \mathbf x_1 \,— \\ — \mathbf x_2 \,— \\ \vdots \\ — \mathbf x_n \,— \end{bmatrix}$ $\mathbf x_i$ $\mathbf y = (y_1 , \ ... \ , y_n)$ $y_i$

$\min\limits_{\mathbf w} \| X \mathbf w - \mathbf y \|^2$ $\mathbf w = (X^T X)^{-1} X^T \mathbf y$

Para un nuevo punto de datos no visto predecimos su valor objetivo como . $\mathbf x$ $\hat y$ $\hat y = \mathbf w^T \mathbf x$

Regresión de cresta

Cuando hay muchas variables correlacionadas en los modelos de regresión lineal, los coeficientes pueden estar mal determinados y tener mucha varianza. Una de las soluciones a este problema es restringir los pesos de modo que no superen una parte del presupuesto . Esto es equivalente a usar la L_2, también conocida como "pérdida de peso": disminuirá la varianza a costa de perder a veces los resultados correctos (es decir, al introducir algún sesgo). $\mathbf w$ $\mathbf w$ $C$ $L_2$

El objetivo ahora se convierte en , siendo el parámetro de regularización. Al revisar las matemáticas, obtenemos la siguiente solución: . Es muy similar a la regresión lineal habitual, pero aquí agregamos a cada elemento diagonal de . $\min\limits_{\mathbf w} \| X \mathbf w - y \|^2 + \lambda \, \| \mathbf w \|^2$ $\lambda$ $\mathbf w = (X^T X + \lambda \, I )^{-1} X^T \mathbf y$ $\lambda$ $X^T X$

Tenga en cuenta que podemos volver a escribir como (vea aquí para más detalles). Para un nuevo punto de datos no visto predecimos su valor objetivo as . Sea . Entonces . $\mathbf w$ $\mathbf w = X^T \, (X X^T + \lambda \, I)^{-1} \mathbf y$ $\mathbf x$ $\hat y$ $\hat y = \mathbf x^T \mathbf w = \mathbf x^T X^T \, (X X^T + \lambda \, I)^{-1} \mathbf y$ $\boldsymbol \alpha = (X X^T + \lambda \, I)^{-1} \mathbf y$ $\hat y = \mathbf x^T X^T \boldsymbol \alpha = \sum\limits_{i=1}^{n} \alpha_i \cdot \mathbf x^T \mathbf x_i$

Regresión de cresta de doble forma

Podemos tener una visión diferente de nuestro objetivo y definir el siguiente problema del programa cuadrático:

$\min\limits_{\mathbf e, \mathbf w} \sum\limits_{i = 1}^n e_i^2$ st para y . $e_i = y_i - \mathbf w^T \mathbf x_i$ $i = 1 \, .. \, n$ $\| \mathbf w \|^2 \leqslant C$

Es el mismo objetivo, pero se expresa de manera algo diferente, y aquí la restricción sobre el tamaño de es explícita. Para resolverlo, definimos el lagrangiano : esta es la forma primaria que contiene las variables primarias y . Luego lo optimizamos wrt y . Para obtener la formulación dual, volvemos a encontrar y a . $\mathbf w$ $\mathcal L_p(\mathbf w, \mathbf e ; C)$ $\mathbf w$ $\mathbf e$ $\mathbf e$ $\mathbf w$ $\mathbf e$ $\mathbf w$ $\mathcal L_p(\mathbf w, \mathbf e ; C)$

Entonces, . Al tomar las derivadas wrt y , obtenemos y . Al dejar , y al volver a y a , obtenemos doble lagrangiana $\mathcal L_p(\mathbf w, \mathbf e ; C) = \| \mathbf e \|^2 + \boldsymbol \beta^T (\mathbf y - X \mathbf w - \mathbf e) - \lambda \, (\| \mathbf w \|^2 - C)$ $\mathbf w$ $\mathbf e$ $\mathbf e = \cfrac{1}{2} \boldsymbol \beta$ $\mathbf w = \cfrac{1}{2 \lambda} X^T \boldsymbol \beta$ $\boldsymbol \alpha = \cfrac{1}{2 \lambda} \boldsymbol \beta$ $\mathbf e$ $\mathbf w$ $\mathcal L_p(\mathbf w, \mathbf e ; C)$ $\mathcal L_d(\boldsymbol \alpha, \lambda; C) = -\lambda^2 \| \boldsymbol \alpha \|^2 + 2 \lambda \, \boldsymbol \alpha^T y - \lambda \| X^T \boldsymbol \alpha \| - \lambda C$ . Si tomamos una derivada wrt , obtenemos - la misma respuesta que para la regresión habitual de Kernel Ridge. No es necesario tomar una derivada wrt , depende de , que es un parámetro de regularización, y también hace que parámetro de regularización . $\boldsymbol \alpha$ $\boldsymbol \alpha = (XX^T - \lambda I)^{-1} \mathbf y$ $\lambda$ $C$ $\lambda$

Luego, coloque en la solución de forma primaria para , y obtenga . Por lo tanto, la forma dual ofrece la misma solución que la Regresión de cresta habitual, y es una forma diferente de llegar a la misma solución. $\boldsymbol \alpha$ $\mathbf w$ $\mathbf w = \cfrac{1}{2 \lambda} X^T \boldsymbol \beta = X^T \boldsymbol \alpha$

Regresión de Kernel Ridge

Los núcleos se usan para calcular el producto interno de dos vectores en algún espacio de características sin siquiera visitarlo. Podemos ver un kernel como , aunque no sabemos qué es - solo sabemos que existe. Hay muchos núcleos, por ejemplo, RBF, Polynonial, etc. $k$ $k(\mathbf x_1, \mathbf x_2) = \phi(\mathbf x_1)^T \phi(\mathbf x_2)$ $\phi(\cdot)$

Podemos usar núcleos para hacer que nuestra Regresión de cresta no sea lineal. Supongamos que tenemos un kernel . Sea una matriz donde cada fila es , es decir, $k(\mathbf x_1, \mathbf x_2) = \phi(\mathbf x_1)^T \phi(\mathbf x_2)$ $\Phi(X)$ $\phi(\mathbf x_i)$ $\Phi(X) = \begin{bmatrix} — \phi(\mathbf x_1) \,— \\ — \phi(\mathbf x_2) \,— \\ \vdots \\ — \phi(\mathbf x_n) \,— \end{bmatrix}$

Ahora podemos tomar la solución para la Regresión de cresta y reemplazar cada con : . Para un nuevo punto de datos no visto predecimos su valor objetivo as . $X$ $\Phi(X)$ $\mathbf w = \Phi(X)^T \, (\Phi(X) \Phi(X)^T + \lambda \, I)^{-1} \mathbf y$ $\mathbf x$ $\hat y$ $\hat y= \mathbf \phi(\mathbf x)^T \Phi(X)^T \, (\Phi(X) \Phi(X)^T + \lambda \, I)^{-1} \mathbf y$

Primero, podemos reemplazar por una matriz , calculada como . Entonces, es . Así que aquí logramos expresar cada producto punto del problema en términos de núcleos. $\Phi(X) \Phi(X)^T$ $K$ $(K)_{ij} = k(\mathbf x_i, \mathbf x_j)$ $\phi(\mathbf x)^T \Phi(X)^T$ $\sum\limits_{i = 1}^n \phi(\mathbf x)^T \phi(\mathbf x_i) = \sum\limits_{i = 1}^n k(\mathbf x, \mathbf x_j)$

Finalmente, al dejar (como anteriormente), obtenemos $\boldsymbol \alpha = (K + \lambda \, I)^{-1} \mathbf y$ $\hat y= \sum\limits_{i = 1}^n \alpha_i k(\mathbf x, \mathbf x_j)$

Referencias

Clase de Machine Learning I en TU Berlin
Elementos de aprendizaje estadístico, http://statweb.stanford.edu/~tibs/ElemStatLearn/
http://0agr.ru/wiki/index.php/Normal_Equation
http://stat.wikia.com/wiki/Kernel_Ridge_Regression
http://stat.rutgers.edu/home/tzhang/papers/ml02_dual.pdf
http://www.ics.uci.edu/~welling/classnotes/papers_class/Kernel-Ridge.pdf
http://www.cs.nyu.edu/~mohri/mls/lecture_8.pdf

Alexey Grigorev
fuente

Estoy impresionado por la discusión bien organizada. Sin embargo, su referencia temprana a "valores atípicos" me confundió. Al parecer, los pesos aplicará a las variables que en lugar de los casos, así que ¿cómo exactamente ayudaría regresión contraída hacer que la solución robusta para periféricas casos , como lo sugiere la ilustración?

$w$

whuber

Excelente respuesta, Alexey (¡aunque no lo llamaría "palabras simples")! +1 sin preguntas. Te gusta escribir en LaTeX, ¿no?

Aleksandr Blekh

Sospecho que puede estar confundiendo algunas cosas básicas aquí. AFAIK, la regresión de cresta no es una respuesta ni una forma de hacer frente a "observaciones ruidosas". OLS ya hace eso. La regresión de crestas es una herramienta utilizada para hacer frente a la casi colinealidad entre los regresores. Esos fenómenos son completamente diferentes del ruido en la variable dependiente.

whuber

+1 whuber. Alexey tienes razón, es demasiado adecuado, es decir, demasiados parámetros para los datos disponibles, no realmente ruido. [y agregue suficientes dimensiones para un tamaño de muestra fijo y 'cualquier' conjunto de datos se vuelve colineal]. Por lo tanto, una mejor imagen bidimensional para RR sería todos los puntos agrupados alrededor de (0,1) con un solo punto en (1,0) ['justificando' el parámetro de pendiente]. Ver ESL fig 3.9, página 67 web.stanford.edu/~hastie/local.ftp/Springer/OLD/… . También observe la función de costo primario: para aumentar el peso en 1 unidad, el error debe disminuir en unidad

$1/\lambda$

seanv507

Creo que quiso decir agregar a elementos diagonales de no restar (?) En la sección de regresión de cresta. Apliqué la edición.

$\lambda$

$X^TX$

Heteroscedastic Jim