En resumen: maximizar el margen puede verse más generalmente como regularizar la solución minimizando (que esencialmente minimiza la complejidad del modelo), esto se hace tanto en la clasificación como en la regresión. Pero en el caso de la clasificación, esta minimización se realiza bajo la condición de que todos los ejemplos se clasifiquen correctamente y en el caso de la regresión bajo la condición de que el valor de todos los ejemplos se desvía menos que la precisión requerida de para la regresión .y ϵ f ( x )wyϵF( x )
Para comprender cómo se pasa de la clasificación a la regresión, es útil ver cómo en ambos casos se aplica la misma teoría SVM para formular el problema como un problema de optimización convexo. Trataré de poner ambos lado a lado.
(Ignoraré las variables de holgura que permiten clasificaciones erróneas y desviaciones por encima de la precisión )ϵ
Clasificación
En este caso, el objetivo es encontrar una función donde para ejemplos positivos y para ejemplos negativos. En estas condiciones, queremos maximizar el margen (distancia entre las 2 barras rojas) que no es más que minimizar la derivada de .f ( x ) ≥ 1 f ( x ) ≤ - 1 f ′ = wF( x ) = w x + bF( x ) ≥ 1F( x ) ≤ - 1F′= w
La intuición detrás de maximizar el margen es que esto nos dará una solución única al problema de encontrar (es decir, descartamos, por ejemplo, la línea azul) y también que esta solución es la más general en estas condiciones, es decir, actúa como una regularización . Esto se puede ver como, alrededor del límite de decisión (donde se cruzan las líneas rojas y negras) la incertidumbre de clasificación es la mayor y elegir el valor más bajo para en esta región dará la solución más general.f ( x )F( x )F( x )
Los puntos de datos en las 2 barras rojas son los vectores de soporte en este caso, corresponden a los multiplicadores de Lagrange distintos de cero de la parte de la igualdad de las condiciones de desigualdad yf ( x ) ≤ - 1F( x ) ≥ 1F( x ) ≤ - 1
Regresión
En este caso, el objetivo es encontrar una función (línea roja) bajo la condición de que esté dentro de una precisión requerida del valor del valor (barras negras) de cada punto de datos, es decir, donde es la distancia entre la línea roja y la gris. Bajo esta condición, nuevamente queremos minimizar , nuevamente por razones de regularización y para obtener una solución única como resultado del problema de optimización convexa. Uno puede ver cómo minimizar resulta en un caso más general ya que el valor extremo deF( x ) = w x + bF( x )ϵy( x )El | y( x ) - f( x ) | ≤ ϵe p s i l o nF′( x ) = www = 0 no significaría ninguna relación funcional, que es el resultado más general que se puede obtener de los datos.
Los puntos de datos en las 2 barras rojas son los vectores de soporte en este caso, corresponden a los multiplicadores de Lagrange distintos de cero de la parte de igualdad de la condición de desigualdad .El | y- f( x ) | ≤ ϵ
Conclusión
Ambos casos resultan en el siguiente problema:
min 12w2
Bajo la condición de que:
- Todos los ejemplos están clasificados correctamente (Clasificación)
- El valor de todos los ejemplos se desvía menos de de . (Regresión)yϵF( x )