Intuición para el parámetro de regularización en SVM

11

¿Cómo cambiar el parámetro de regularización en un SVM cambia el límite de decisión para un conjunto de datos no separable? Sería muy útil una respuesta visual y / o algún comentario sobre los comportamientos limitantes (para regularizaciones grandes y pequeñas).

ASX
fuente

Respuestas:

17

El parámetro de regularización (lambda) sirve como un grado de importancia que se le da a las clasificaciones erróneas. SVM plantea un problema de optimización cuadrática que busca maximizar el margen entre ambas clases y minimizar la cantidad de clasificaciones erróneas. Sin embargo, para problemas no separables, para encontrar una solución, la restricción de clasificación errónea debe ser relajada, y esto se hace estableciendo la "regularización" mencionada.

Entonces, intuitivamente, a medida que lambda crece, menos se permiten los ejemplos clasificados erróneamente (o el precio más alto que paga en la función de pérdida). Luego, cuando lambda tiende a infinito, la solución tiende al margen rígido (no permitir clasificación errónea). Cuando lambda tiende a 0 (sin ser 0), más se permiten las clasificaciones erróneas.

Definitivamente hay una compensación entre estos dos y lambdas normalmente más pequeños, pero no demasiado pequeños, se generalizan bien. A continuación se presentan tres ejemplos de clasificación SVM lineal (binaria).

SVM lineal Lambda = 0.1 SVM lineal Lambda = 1 ingrese la descripción de la imagen aquí

Para SVM de núcleo no lineal, la idea es similar. Dado esto, para valores más altos de lambda hay una mayor posibilidad de sobreajuste, mientras que para valores más bajos de lambda hay mayores posibilidades de ajuste insuficiente.

Las imágenes a continuación muestran el comportamiento de RBF Kernel, dejando el parámetro sigma fijo en 1 e intentando lambda = 0.01 y lambda = 10

RBF Kernel SVM lambda = 0.01 RBF Kernel SVM lambda = 10

Puede decir que la primera figura donde lambda es más baja está más "relajada" que la segunda figura donde los datos están destinados a ajustarse con mayor precisión.

(Diapositivas del Prof. Oriol Pujol. Universitat de Barcelona)

Javierfdr
fuente
¡Buenas fotos! ¿Los creaste tú mismo? En caso afirmativo, ¿tal vez pueda compartir el código para dibujarlos?
Alexey Grigorev
buenos gráficos con respecto a los dos últimos => del texto, uno pensaría implícitamente que la primera imagen es la que tiene lambda = 0.01, pero según tengo entendido (y para ser consistente con el gráfico al principio) esta es la que tiene lambda = 10. porque este es claramente el que tiene menos regularización (más ajustado, más relajado).
Wim 'titte' Thiels
^ este es mi entendimiento también. La parte superior de los dos gráficos de color muestra claramente más contornos para la forma de los datos, por lo que debe ser el gráfico donde se favoreció el margen de la ecuación SVM con mayor lambda. La parte inferior de los dos gráficos en color muestra una clasificación más relajada de los datos (un pequeño grupo de azul en el área naranja), lo que significa que no se favoreció la maximización del margen en lugar de minimizar la cantidad de error en la clasificación.
Brian Ambielli el