Comprensión de la regresión SVM: función objetivo y "planitud"

12

Las SVM para clasificación tienen un sentido intuitivo para mí: entiendo cómo minimizar ||θ||2 produce el margen máximo. Sin embargo, no entiendo ese objetivo en el contexto de la regresión. Varios textos ( aquí y aquí ) describen esto como maximizar la "planitud". ¿Por qué querríamos hacer eso? ¿Qué en la regresión es equivalente al concepto de "margen"?

Aquí hay algunos intentos de respuesta, pero ninguno que realmente ayudó a mi comprensión.

Yang
fuente
Realmente no estoy al tanto de la teoría SVM, pero la 'planitud' en la discusión de las máquinas kernel a las que se vincula parece ser: 'tiene una segunda derivada pequeña ' (piense en la motivación típica para los modelos de suavizado de splines).
conjugateprior

Respuestas:

11

Una forma en que pienso sobre la planitud es que hace que mis predicciones sean menos sensibles a las perturbaciones en las características. Es decir, si estoy construyendo un modelo de la forma donde mi vector de características ya se ha normalizado, los valores más pequeños en significan que mi modelo es menos sensible a los errores de medición / choques aleatorios / no estacionariedad de las características, . Dados dos modelos ( es decir, dos valores posibles de ) que explican los datos igualmente bien, prefiero el 'más plano'.x θ x θ

y=xθ+ϵ,
xθxθ

También puede pensar en la Regresión de Ridge como si fuera la misma cosa sin el truco del núcleo o la formulación de regresión 'tubo' SVM.

editar : En respuesta a los comentarios de @ Yang, alguna explicación más:

  1. Considere el caso lineal: . Supongamos que las se dibujan iid de alguna distribución, independiente de . Por la identidad del producto punto, tenemos , donde es el ángulo entre y , que probablemente se distribuye bajo una distribución esféricamente uniforme. Ahora tenga en cuenta: la 'propagación' ( por ejemplo, la desviación estándar de la muestra) de nuestras predicciones de es proporcional a. Para obtener un buen MSE con las versiones latentes y silenciosas de nuestras observaciones, queremos reducir ese.x θ y = | El | x | El | El | El | θ | El | cos ψ + ϵ ψ θ x y | El | θ | El | El | El | θ | El |y=xθ+ϵxθy=||x||||θ||cosψ+ϵψθxy||θ||||θ||cf Estimador James Stein .
  2. Considere el caso lineal con muchas características. Considere los modelos , y y = x θ 2 + ϵ . Si θ 1 tiene más elementos cero que θ 2 , pero tiene el mismo poder explicativo, lo preferiríamos, basándonos en la navaja de afeitar de Occam, ya que tiene dependencias en menos variables ( es decir , hemos 'hecho la selección de características' al configurar algunos elementos de θ 1 a cero). La planitud es una especie de versión continua de este argumento. Si cada marginal de x tiene unidad de desviación estándar, y theta 1 tieney=xθ1+ϵy=xθ2+ϵθ1θ2θ1xθ1por ejemplo, 2 elementos que son 10, y los restantes son menores que 0.0001, dependiendo de su tolerancia al ruido, esto efectivamente 'selecciona' las dos características y pone a cero las restantes.n2
  3. Cuando se emplea el truco del núcleo, está realizando una regresión lineal en un espacio vectorial dimensional alto (a veces infinito). Cada elemento de ahora corresponde a una de sus muestras , no a sus características . Si elementos de son distintos de cero, y los restantes son cero, las características correspondientes a los elementos distintos de cero de se denominan sus "vectores de soporte". Para almacenar su modelo SVM, digamos en el disco, solo necesita mantener esos vectores de características, y puede tirar el resto de ellos. Ahora la planitud realmente importa, porque tenerk θ m - k k θ k k θ l lθkθmkkθkkpequeño reduce los requisitos de almacenamiento y transmisión, etc. Nuevamente, dependiendo de su tolerancia al ruido, probablemente pueda poner a cero todos los elementos de pero el más grande, para algunos , después de realizar una regresión SVM. La planeidad aquí es equivalente a la parsimonia con respecto al número de vectores de soporte.θll
shabbychef
fuente
1
Entonces, ¿esto es básicamente una regresión con una función de pérdida 'tubo' (0 penalización por puntos +/- epsilon de la predicción) en lugar de la función de pérdida cuadrática de OLS?
conjugateprior
@Conjugate Prior: sí, por lo general, la regresión del núcleo minimiza una función de 'pérdida insensible al épsilon', que puede considerarse como ver, por ejemplo, kernelsvm.tripod.com o cualquiera de los trabajos de Smola et al . f(x)=(|x|ϵ)+
shabbychef
@shabbychef Gracias. Siempre me preguntaba qué estaba pasando allí.
conjugateprior
@Conjugate Prior: no creo que esta sea realmente la función de pérdida deseada, pero las matemáticas terminan funcionando bien, por lo que corrieron con ella. Al menos esa es mi sospecha.
shabbychef
@shabbychef: Todavía estoy perdido. Considere el caso unidimensional: . Todo lo que minimiza hace es darle una línea más horizontal . Parece que no tiene nada que ver con la segunda derivada, a la que creo que te refieres ("suavidad"). Y si mis puntos de muestra son (0,0) y (1,1e9), ¿por qué preferiría una línea más plana? Es decir, digamos que mi tolerancia de es 1: ¿por qué preferiría la línea más plana desde (0,0) a (1,1e9-1) ( ) en lugar de la línea a través de (1,1e9) ( ) o la línea que pasa por (1,1e9 + 1) ( )? θ ϵ θ = 1 e 9 - 1 θ = 1 e 9 θ = 1 e 9 + 1y=θxθϵθ=1e91θ=1e9θ=1e9+1
Yang
3

Shabbychef dio una explicación muy clara desde la perspectiva de la complejidad del modelo. Trataré de entender este problema desde otro punto de vista en caso de que pueda ayudar a alguien.

e

(xi,yi)y=ωx+bee

|ωxiyi+b|ω2+1

eω

Cualquiera puede extender fácilmente el caso unidimensional al caso N-dimensional ya que la ecuación de distancia siempre será la distancia euclidiana .

Además, podemos tener una revisión sobre el problema de optimización en SVR para la comparación [1].

s. t. { y i - < ω , x i > - b e < ω , x i > + b - y ie

min12||ω||2
s.t.{yi<ω,xi>be<ω,xi>+byie

Gracias.

[1] Smola, A. y B. Schölkopf. Un tutorial sobre regresión de vectores de soporte. Estadística e Informática, vol. 14, núm. 3, agosto de 2004, págs. 199–222.

oloopia
fuente
0

Al menos, no creo que minimizar tenga algo que ver con el margen conceptual como en una configuración de clasificación SVM. Sirve para un objetivo totalmente diferente que está bien explicado por las dos publicaciones anteriores, es decir, reducir la complejidad del modelo y evitar el sobreajuste.θ

Lynnjohn
fuente