¿Por qué el término de sesgo en SVM se estima por separado, en lugar de una dimensión adicional en el vector de características?

11

El hiperplano óptimo en SVM se define como:

wx+b=0,

donde representa el umbral. Si tenemos algún mapeo que mapea el espacio de entrada a algún espacio , podemos definir SVM en el espacio , donde el hiperplano óptimo será:ϕ Z ZbϕZZ

wϕ(x)+b=0.

Sin embargo, siempre podemos definir el mapeo para que , , y luego el hiperplano óptimo se definirá como ϕ 0 ( x ) = 1 x wϕ ( x ) = 0.ϕϕ0(x)=1x

wϕ(x)=0.

Preguntas:

  1. ¿Por qué muchos documentos usan cuando ya tienen mapeo y estiman los parámetros y theshold separado?ϕ w bwϕ(x)+b=0ϕwb

  2. ¿Hay algún problema para definir SVM como s.t. \ y_n \ mathbf w \ cdot \ mathbf \ phi (\ mathbf x_n) \ geq 1, \ forall n y estimamos solo el vector de parámetros \ mathbf w , suponiendo que definamos \ phi_0 (\ mathbf x) = 1, \ forall \ mathbf x ?

    minw||w||2
    s.t. ynwϕ(xn)1,n
    wϕ0(x)=1,x
  3. Si es posible la definición de SVM de la pregunta 2., tendremos w=nynαnϕ(xn) y el umbral será simplemente b=w0 , que no trataremos por separado. Por lo tanto, nunca usaremos fórmulas como b=tnwϕ(xn) para estimar b partir de algún vector de soporte xn . ¿Derecho?

Dejan
fuente

Respuestas:

12

¿Por qué el sesgo es importante?

El término de sesgo es, de hecho, un parámetro especial en SVM. Sin él, el clasificador siempre pasará por el origen. Por lo tanto, SVM no le proporciona el hiperplano de separación con el margen máximo si no pasa por el origen, a menos que tenga un término de sesgo.b

A continuación se muestra una visualización del problema de sesgo. Un SVM entrenado con (sin) un término de sesgo se muestra a la izquierda (derecha). A pesar de que ambos SVM están entrenados con los mismos datos , se ven muy diferentes.

ingrese la descripción de la imagen aquí

¿Por qué se debe tratar el sesgo por separado?

Como señaló Ben DAI , el término sesgo debe tratarse por separado debido a la regularización. SVM maximiza el tamaño del margen, que es (o dependiendo de cómo lo defina).b1||w||22||w||2

Maximizar el margen es lo mismo que minimizar . Esto también se llama el término de regularización y puede interpretarse como una medida de la complejidad del clasificador. Sin embargo, no desea regularizar el término de sesgo porque, el sesgo desplaza los puntajes de clasificación hacia arriba o hacia abajo en la misma cantidad para todos los puntos de datos . En particular, el sesgo no cambia la forma del clasificador ni su tamaño de margen. Por lo tanto, ...||w||2

El término de sesgo en SVM NO debe ser regularizado.

En la práctica, sin embargo, es más fácil simplemente introducir el sesgo en el vector de características en lugar de tener que tratarlo como un caso especial.

Nota: cuando se aplica el sesgo a la función de entidad, es mejor fijar esa dimensión del vector de entidad a un gran número, por ejemplo, , para minimizar los efectos secundarios de la regularización del sesgo.ϕ0(x)=10

Sobi
fuente
¿Qué programa usaste para generar las tramas, por curiosidad?
d0rmLife
1
@ d0rmLife: ¡esto es solo una caricatura que hice usando MS PowerPoint!
Sobi
1

A veces, las personas simplemente omiten la intercepción en SVM, pero creo que la razón puede ser que podamos penalizar la intercepción para omitirla. es decir,

podemos modificar los datos y para que omita la intersección Como Dicho esto, se puede utilizar una técnica similar en la versión del núcleo.x^=(1,x)w^=(w0,wT)T

x w+b=x^ w^

Sin embargo, si ponemos la intersección en los pesos, la función objetivo será ligeramente diferente a la original. Es por eso que llamamos "penalizar".

Ben Dai
fuente
Estoy de acuerdo en que tendremos diferentes funciones objetivas. El caso en el que no incluimos la intersección en los parámetros conduce al problema de optimización sujeto a restricciones, mientras que de lo contrario tenemos el problema . Pero no entiendo por qué la interceptación de panalización es más o menos importante para el modelo. bminw,b||w||2minw,b||w||2+b2
Dejan
Lo que me viene a la mente es que la razón principal por la que nos cruzamos es quizás porque en un problema dual, la intercepción nos permite tener una restricción que es importante para aplicar el algoritmo SMO, y si no tenemos intercepción, solo tendrá constantes y la optimización dual sería más difícil en ese caso. αntn=0αn0
Dejan
@Petar Una cosa que sé es que se vuelve poderoso cuando consideramos la forma Dual de este modelo. Esta técnica eliminará la restricción lineal.
Ben Dai
@Petar No creo que la optimización dual sea más difícil, ya que tenemos un dominio más fácil.
Ben Dai
@Petar Para un algoritmo específico, puede ser más difícil. Sin embargo, matemáticamente, creo que el dominio de la caja puede ser mejor:)
Ben Dai
0

Además de las razones mencionadas anteriormente, la distancia de un punto a un hiperplano definido por la pendiente e intercepción es Así es como El concepto de margen en SVM es movido. Si cambia la para incluir el término de intercepción , la norma de la se verá afectada por el tamaño de la intercepción, lo que hará que el SVM se optimice hacia una pequeña intercepción, lo que no tiene sentido en muchos casos.xθb

|θTx+b|||θ||
θbθ

charlieh_7
fuente
Aunque la distancia de un punto a un hiperplano es correcta y la explicación parece interesante, no veo correlación entre esta fórmula y los SVM de entrenamiento. ¿Puede explicar mejor cómo se usa esta fórmula durante el entrenamiento o proporcionar algún enlace adicional?
Dejan
@Dejan La idea detrás de un SVM es encontrar el hiperplano que maximice el margen mínimo de un conjunto de datos. El margen es la "distancia" ( , sin tomar el valor absoluto, lo que indica la confianza que tiene el clasificador hacia su hipótesis) de ese punto al hiperplano veces su etiqueta, que está en . El producto es , que es positivo si la salida del clasificador coincide con la etiqueta y negativa en caso contrario. En la práctica, simplemente escalamos nuestro modelo para que el margen mínimo del conjunto de datos sea . θTx+b||θ||{1,1}y(θTx+b)||θ||1||θ||
charlieh_7
@Dejan puedes encontrar más detalles en las notas de Andrew Ng: cs229.stanford.edu/notes/cs229-notes3.pdf
charlieh_7