¿Cuál es la función de pérdida de SVM de margen duro?

23

La gente dice que el margen suave SVM utiliza la función de pérdida de bisagra: . Sin embargo, la función objetivo real que SVM de margen blando intenta minimizar es \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max (0,1-y_i (w ^ \ intercal x_i + b) ) Algunos autores llaman al regularizador de término \ | w \ | ^ 2 y la función de pérdida de término \ max (0,1-y_i (w ^ \ intercal x_i + b)) .max(0,1yi(wxi+b))

12w2+Cimax(0,1yi(wxi+b))
w2max(0,1yi(wxi+b))

Sin embargo, para SVM de margen duro, toda la función objetivo es solo

12w2
¿Eso significa que SVM de margen duro solo minimiza un regularizador sin ninguna función de pérdida? Eso suena muy extraño.

Bueno, si 12w2 es la función de pérdida en este caso, ¿podemos llamarla función de pérdida cuadrática? Si es así, ¿por qué la función de pérdida de SVM de margen duro se convierte en regularizador en SVM de margen blando y hace un cambio de pérdida cuadrática a pérdida de bisagra?

Roun
fuente
Por lo que entiendo, el margen rígido significa que no acepta datos en su margen. Como consecuencia, max (0, cálculo) siempre devolverá 0.
fxm

Respuestas:

26

El término de pérdida de bisagra imax(0,1yi(wxi+b)) en SVM de margen blando penaliza las clasificaciones erróneas . En SVM de margen duro, por definición, no hay clasificaciones erróneas.

De hecho, esto significa que el margen duro SVM intenta minimizar w2 . Debido a la formulación del problema SVM, el margen es 2/w. Como tal, minimizar la norma de w es geométricamente equivalente a maximizar el margen. ¡Exactamente lo que queremos!

La regularización es una técnica para evitar el sobreajuste penalizando coeficientes grandes en el vector solución. En el margen duro, SVM es tanto la función de pérdida como un regularizador .w2L2

En SVM de margen blando, el término de pérdida de bisagra también actúa como un regularizador pero en las variables de holgura en lugar de y en en lugar de . regularización induce la escasez, por lo que el SVM estándar es escaso en términos de vectores de soporte (en contraste con el SVM de mínimos cuadrados).wL1L2L1

Marc Claesen
fuente
¿Puedes explicar los dos últimos párrafos con más detalles y matemáticas?
Nain
0

Solo para aclarar, se minimiza sujeto a la restricción de que los puntos son linealmente separables (es decir, uno puede dibujar un hiperplano que separe perfectamente los dos). En otras palabras, los únicos valores permitidos de w que podemos considerar como soluciones son aquellos que separan los dos conjuntos de puntos.

12w2

Ahora, se cree que el margen duro SVM "se sobreajusta" más fácilmente que el margen blando. Esto es más fácil de imaginar con un SVM RBF con una suficientemente alta , que puede crear límites de decisión (demasiado) complicados y (potencialmente) demasiado ajustados. Cuanto más difícil sea el margen (emulado de manera imprecisa con una "C" más alta), más difícil será la búsqueda para encontrar límites de decisión que clasifiquen perfectamente los dos conjuntos de puntos.γ

Cuando pasamos al "margen blando", las restricciones se relajan y se reemplazan por una restricción mediante la introducción de "holgura". Esta variable de holgura se define con un término de "pérdida de bisagra". Después de la simplificación, se llega a la bisagra + l2 como término de pérdida que todos asocian con SVM. FWIW, me gusta enmarcar las SVM como un problema de optimización en lugar del omnipresente problema de "seguir los gradientes".

Ishan Patel
fuente