El hiperplano óptimo en SVM se define como:
donde representa el umbral. Si tenemos algún mapeo que mapea el espacio de entrada a algún espacio , podemos definir SVM en el espacio , donde el hiperplano óptimo será:ϕ Z Z
Sin embargo, siempre podemos definir el mapeo para que , , y luego el hiperplano óptimo se definirá como ϕ 0 ( x ) = 1 ∀ x w ⋅ ϕ ( x ) = 0.
Preguntas:
¿Por qué muchos documentos usan cuando ya tienen mapeo y estiman los parámetros y theshold separado?ϕ w b
¿Hay algún problema para definir SVM como s.t. \ y_n \ mathbf w \ cdot \ mathbf \ phi (\ mathbf x_n) \ geq 1, \ forall n y estimamos solo el vector de parámetros \ mathbf w , suponiendo que definamos \ phi_0 (\ mathbf x) = 1, \ forall \ mathbf x ?
Si es posible la definición de SVM de la pregunta 2., tendremos y el umbral será simplemente , que no trataremos por separado. Por lo tanto, nunca usaremos fórmulas como para estimar partir de algún vector de soporte . ¿Derecho?
Respuestas:
¿Por qué el sesgo es importante?
El término de sesgo es, de hecho, un parámetro especial en SVM. Sin él, el clasificador siempre pasará por el origen. Por lo tanto, SVM no le proporciona el hiperplano de separación con el margen máximo si no pasa por el origen, a menos que tenga un término de sesgo.b
A continuación se muestra una visualización del problema de sesgo. Un SVM entrenado con (sin) un término de sesgo se muestra a la izquierda (derecha). A pesar de que ambos SVM están entrenados con los mismos datos , se ven muy diferentes.
¿Por qué se debe tratar el sesgo por separado?
Como señaló Ben DAI , el término sesgo debe tratarse por separado debido a la regularización. SVM maximiza el tamaño del margen, que es (o dependiendo de cómo lo defina).b 1||w||2 2||w||2
Maximizar el margen es lo mismo que minimizar . Esto también se llama el término de regularización y puede interpretarse como una medida de la complejidad del clasificador. Sin embargo, no desea regularizar el término de sesgo porque, el sesgo desplaza los puntajes de clasificación hacia arriba o hacia abajo en la misma cantidad para todos los puntos de datos . En particular, el sesgo no cambia la forma del clasificador ni su tamaño de margen. Por lo tanto, ...||w||2
En la práctica, sin embargo, es más fácil simplemente introducir el sesgo en el vector de características en lugar de tener que tratarlo como un caso especial.
Nota: cuando se aplica el sesgo a la función de entidad, es mejor fijar esa dimensión del vector de entidad a un gran número, por ejemplo, , para minimizar los efectos secundarios de la regularización del sesgo.ϕ0(x)=10
fuente
A veces, las personas simplemente omiten la intercepción en SVM, pero creo que la razón puede ser que podamos penalizar la intercepción para omitirla. es decir,
podemos modificar los datos y para que omita la intersección Como Dicho esto, se puede utilizar una técnica similar en la versión del núcleo.x^=(1,x) w^=(w0,wT)T
Sin embargo, si ponemos la intersección en los pesos, la función objetivo será ligeramente diferente a la original. Es por eso que llamamos "penalizar".
fuente
Además de las razones mencionadas anteriormente, la distancia de un punto a un hiperplano definido por la pendiente e intercepción es Así es como El concepto de margen en SVM es movido. Si cambia la para incluir el término de intercepción , la norma de la se verá afectada por el tamaño de la intercepción, lo que hará que el SVM se optimice hacia una pequeña intercepción, lo que no tiene sentido en muchos casos.x θ b |θTx+b|||θ|| θ b θ
fuente