La gente dice que el margen suave SVM utiliza la función de pérdida de bisagra: . Sin embargo, la función objetivo real que SVM de margen blando intenta minimizar es \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max (0,1-y_i (w ^ \ intercal x_i + b) ) Algunos autores llaman al regularizador de término \ | w \ | ^ 2 y la función de pérdida de término \ max (0,1-y_i (w ^ \ intercal x_i + b)) .
Sin embargo, para SVM de margen duro, toda la función objetivo es solo
¿Eso significa que SVM de margen duro solo minimiza un regularizador sin ninguna función de pérdida? Eso suena muy extraño.
Bueno, si es la función de pérdida en este caso, ¿podemos llamarla función de pérdida cuadrática? Si es así, ¿por qué la función de pérdida de SVM de margen duro se convierte en regularizador en SVM de margen blando y hace un cambio de pérdida cuadrática a pérdida de bisagra?
svm
loss-functions
Roun
fuente
fuente
Respuestas:
El término de pérdida de bisagra∑imax(0,1−yi(w⊺xi+b)) en SVM de margen blando penaliza las clasificaciones erróneas . En SVM de margen duro, por definición, no hay clasificaciones erróneas.
De hecho, esto significa que el margen duro SVM intenta minimizar∥w∥2 . Debido a la formulación del problema SVM, el margen es 2/∥w∥ . Como tal, minimizar la norma de w es geométricamente equivalente a maximizar el margen. ¡Exactamente lo que queremos!
La regularización es una técnica para evitar el sobreajuste penalizando coeficientes grandes en el vector solución. En el margen duro, SVM es tanto la función de pérdida como un regularizador .∥w∥2 L2
En SVM de margen blando, el término de pérdida de bisagra también actúa como un regularizador pero en las variables de holgura en lugar de y en en lugar de . regularización induce la escasez, por lo que el SVM estándar es escaso en términos de vectores de soporte (en contraste con el SVM de mínimos cuadrados).w L1 L2 L1
fuente
Solo para aclarar, se minimiza sujeto a la restricción de que los puntos son linealmente separables (es decir, uno puede dibujar un hiperplano que separe perfectamente los dos). En otras palabras, los únicos valores permitidos de w que podemos considerar como soluciones son aquellos que separan los dos conjuntos de puntos.12∥w∥2
Ahora, se cree que el margen duro SVM "se sobreajusta" más fácilmente que el margen blando. Esto es más fácil de imaginar con un SVM RBF con una suficientemente alta , que puede crear límites de decisión (demasiado) complicados y (potencialmente) demasiado ajustados. Cuanto más difícil sea el margen (emulado de manera imprecisa con una "C" más alta), más difícil será la búsqueda para encontrar límites de decisión que clasifiquen perfectamente los dos conjuntos de puntos.γ
Cuando pasamos al "margen blando", las restricciones se relajan y se reemplazan por una restricción mediante la introducción de "holgura". Esta variable de holgura se define con un término de "pérdida de bisagra". Después de la simplificación, se llega a la bisagra + l2 como término de pérdida que todos asocian con SVM. FWIW, me gusta enmarcar las SVM como un problema de optimización en lugar del omnipresente problema de "seguir los gradientes".
fuente