¿Qué tan diferente es la regresión de vectores de soporte en comparación con SVM?

SVM, tanto para clasificación como para regresión, se trata de optimizar una función a través de una función de costo, sin embargo, la diferencia radica en el modelado de costos.

Considere esta ilustración de una máquina de vectores de soporte utilizada para la clasificación.

Dado que nuestro objetivo es una buena separación de las dos clases, intentamos formular un límite que deje un margen lo más amplio posible entre las instancias más cercanas (vectores de soporte), aunque las instancias que caen en este margen son una posibilidad, aunque incurrir en un alto costo (en el caso de un margen suave SVM).

En el caso de la regresión, el objetivo es encontrar una curva que minimice la desviación de los puntos hacia ella. Con SVR, también usamos un margen, pero con un objetivo completamente diferente: no nos importan las instancias que se encuentran dentro de un cierto margen alrededor de la curva, porque la curva se ajusta bastante bien. Este margen está definido por el parámetro de la SVR. Las instancias que se encuentran dentro del margen no incurren en ningún costo, por eso nos referimos a la pérdida como 'insensible a epsilon'. $\epsilon$

Para ambos lados de la función de decisión definimos una variable de holgura cada uno, , para tener en cuenta las desviaciones fuera de la -zone. $\xi_+, \xi_-$ $\epsilon$

Esto nos da el problema de optimización (ver E. Alpaydin, Introducción al aprendizaje automático, 2a edición)

m i n \frac{1}{2} | | w | |^{2} + C \sum_{t} (ξ_{+} + ξ_{-})

$min \frac{1}{2} ||w||^2 + C\sum_{t} (\xi_+ + \xi_-)$

sujeto a

r^{t} - (w^{T} x + w_{0}) \leq ϵ + ξ_{+}^{t} (w^{T} x + w_{0}) - r^{t} \leq ϵ + ξ_{-}^{t} ξ_{+}^{t}, ξ_{-}^{t} \geq 0

$r^t - (\textbf{w}^T \textbf{x} + w_0) \leq \epsilon + \xi_{+}^{t}\\ (\textbf{w}^T \textbf{x} + w_0)-r^t \leq \epsilon + \xi_{-}^{t}\\ \xi_{+}^{t},\xi_{-}^{t} \geq 0$

Las instancias fuera del margen de una regresión SVM incurren en costos en la optimización, por lo que el objetivo de minimizar este costo como parte de la optimización refina nuestra función de decisión, pero de hecho no maximiza el margen como sería el caso en la clasificación SVM.

Esto debería haber respondido las dos primeras partes de su pregunta.

Con respecto a su tercera pregunta: como podría haber recogido por ahora, es un parámetro adicional en el caso de SVR. Los parámetros de un SVM regular aún permanecen, por lo que el término de penalización , así como otros parámetros requeridos por el núcleo, como en el caso del núcleo RBF. $\epsilon$ $C$ $\gamma$

deemel
fuente

¿Qué tan diferente es la regresión de vectores de soporte en comparación con SVM?

Respuestas: