¿Qué sucede cuando entrenamos una máquina de vectores de soporte básico (núcleo lineal y sin margen blando) en datos separables no linealmente? El problema de optimización no es factible, entonces, ¿qué devuelve el algoritmo de minimización?
¿Qué sucede cuando entrenamos una máquina de vectores de soporte básico (núcleo lineal y sin margen blando) en datos separables no linealmente? El problema de optimización no es factible, entonces, ¿qué devuelve el algoritmo de minimización?
Creo que la máquina de vectores de soporte básico significa SVM de margen duro. Entonces, revisemos:
En resumen, queremos encontrar un hiperplano con el margen más grande que pueda separar correctamente todas las observaciones en nuestro espacio muestral de entrenamiento.
Dada la definición anterior, ¿cuál es el problema de optimización que debemos resolver?
max(margin)
margin
y también satisfacer la restricción: no hay errores en la muestraVolviendo a su pregunta, dado que mencionó que el conjunto de datos de entrenamiento no es linealmente separable, al usar SVM de margen duro sin transformaciones de características, es imposible encontrar un hiperplano que satisfaga "No hay errores en la muestra" .
Normalmente, resolvemos el problema de optimización SVM mediante programación cuadrática, porque puede realizar tareas de optimización con restricciones. Si utiliza el Descenso de degradado u otros algoritmos de optimización que, sin satisfacer las restricciones de SVM de margen duro, todavía debería obtener un resultado, pero ese no es un hiperplano SVM de margen duro.
Por cierto, con datos no linealmente separables, generalmente elegimos