Límites de generalización en SVM

11

Estoy interesado en los resultados teóricos para la capacidad de generalización de las máquinas de vectores de soporte, por ejemplo, límites en la probabilidad de error de clasificación y en la dimensión Vapnik-Chervonenkis (VC) de estas máquinas. Sin embargo, al leer la literatura he tenido la impresión de que algunos resultados recurrentes similares tienden a diferir ligeramente de un autor a otro, en particular con respecto a las condiciones técnicas requeridas para un determinado límite.

A continuación recordaré la estructura del problema SVM y declararé 3 de los principales resultados de generalización que he encontrado de forma recurrente de una forma u otra doy 3 referencias principales a lo largo de la exposición.

Configuración del problema :

Supongamos que tenemos una muestra de datos de pares independientes e idénticamente distribuidos (iid) (xi,yi)1in donde para todo i , xiRp y yi{1,1} . Construimos una máquina de vectores de soporte (SVM) que maximiza el margen mínimo m entre el hiperplano de separación definido por {x:wx+b=0} ,wRp ybR , y el punto más cercano entrex1,,xn para separar las dos clases definidas pory=1 ey=1 . Dejamos que el SVM admita algunos errores a través de un margen blando introduciendo variables de holguraξ1,,ξn pero por simplicidad de notación ignoramos la posibilidad de núcleos. Los parámetros de la soluciónw yb se obtienen resolviendo el siguiente programa de optimización cuadrática convexa:

minw,b,ξ1,,ξn12w2+Ci=1nξis.t.:yi(wxi+b)1ξi,i{1,,n}ξi0,i{1,,n}

Estamos interesados ​​en la capacidad de generalización de esta máquina.

Vapnik-Chervonenkis dimensión VC :

Un primer resultado se debe a (Vapnik, 2000), en el que limita la dimensión VC de un hiperplano de separación, teorema 5.1. Dejar que R=maxxixi, tenemos:

VCmin((Rm)2,p)+1

Este resultado se puede encontrar nuevamente en (Burges, 1998), teorema 6. Sin embargo, parece que el teorema de Burges es más restrictivo que el mismo resultado de Vapnik, ya que necesita definir una categoría especial de clasificadores, conocidos como clasificadores tolerantes a huecos. a la que pertenece el SVM , para establecer el teorema.

Límites en la probabilidad de errores :

En (Vapnik, 2000), el teorema 5.2 en la página 139 da el siguiente límite en la capacidad de generalización SVM:

E[Perror]1nE[min(p,nSV,(Rw)2)]

donde es el número de vectores de soporte de la SVM. Este resultado parece encontrarse nuevamente en (Burges, 1998), ecuaciones (86) y (93) respectivamente. Pero de nuevo, Burges parece diferir de Vapnik ya que separa los componentes dentro de la función mínima anterior en diferentes teoremas, con diferentes condiciones.nSV

Otro resultado que aparece en (Vapnik, 2000), p.133, es el siguiente. Suponiendo nuevamente que, para todo , y dejando que y , definimos para que sea igual a:ixi2R2hVCϵ[0,1]ζ

ζ=4h(ln2nh+1)lnϵ4n

También definimos como el número de ejemplos de entrenamiento mal clasificados por el SVM. Luego, con probabilidad podemos afirmar que la probabilidad de que un ejemplo de ensayo no se separa correctamente por el -margin hiperplano es decir, SVM con el margen ha unido el:nerror1ϵmm

Perrornerrorn+ζ2(1+1+4nerrornζ)

Sin embargo, en (Hastie, Tibshirani y Friedman, 2009), p.438, se encuentra un resultado muy similar:

ErrorTestζ

conclusión :

Me parece que hay un cierto grado de conflicto entre estos resultados. Por otro lado, dos de estas referencias, aunque canónicas en la literatura SVM, comienzan a ser un poco antiguas (1998 y 2000), especialmente si consideramos que la investigación sobre el algoritmo SVM comenzó a mediados de los noventa.

Mis preguntas son:

  • ¿Estos resultados siguen siendo válidos hoy o se ha demostrado que están equivocados?
  • ¿Se han derivado límites más estrechos con condiciones relativamente flojas desde entonces? Si es así, ¿por quién y dónde puedo encontrarlos?
  • Finalmente, ¿hay algún material de referencia que sintetice los principales resultados de generalización sobre la SVM?

referencias :

Burges, JC (1998). "Un tutorial sobre máquinas de vectores de soporte para reconocimiento de patrones", Minería de datos y descubrimiento de conocimiento , 2: 121-167

Hastie, T., Tibshirani, R. y Friedman, J. (2009). Los elementos del aprendizaje estadístico , segunda edición, Springer

Vapnik, VN (1998). Teoría del aprendizaje estadístico , primera edición, John Wiley & Sons

Vapnik, VN (1999). "Una visión general de la teoría del aprendizaje estadístico", IEEE Transactions on Neural Networks , 10 (5): 988-999

Vapnik, VN (2000). La naturaleza de la teoría del aprendizaje estadístico , segunda edición, Springer

Daneel Olivaw
fuente
una referencia que resume los límites de riesgo de vanguardia (a partir de 2008) para SVM: "Support Vector Machines" (Ingo Steinwart, Andreas Christmann, Springer 2008) .
regístrese el

Respuestas:

3

No conozco la literatura a la que te refieres en detalle, pero creo que un resumen completo de los límites de generalización que deberían estar actualizados se puede encontrar en Boucheron et al. (2004) (Enlace: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Canberra-Australia-febrero-2-14-2003-Tuebingen-Alemania-agosto-4-16-2003-Revised-Lectures.pdf # page = 176 )

Dibujaré parte del SVM enlazado a continuación, dejando de lado los detalles y las pruebas.

Antes de elaborar específicamente sobre el límite de SVM, debemos comprender qué están tratando de lograr los límites de generalización.

Primero supongamos que se conoce la probabilidad real entonces el mejor clasificador posible sería el clasificador bayes, es decir, P(Y=+1|X=x)

g={+1  ifP(Y=1|X=x)>0.51  otherwise

El objetivo de la teoría del aprendizaje estadístico ahora es encontrar la diferencia entre un clasificador de clase (por ejemplo, SVM) y el clasificador bayes, es decir, Nota que es la pérdida dado datos y esperados es la mejor clasificador posible en la clase del modelo . El término se llama error de estimación y, a menudo, el foco porque puede limitarse mucho más fácilmente que el error de aproximación (el otro término). También omitiré el error de aproximación aquí.C

g^n=argmingCLn(g)
L(g^n)L(g)=L(g^n)L(gc)+L(gc)L(g).
L(g)=El(g(X),Y)gcCZ=:L(g)L(g^n)

El error de estimación puede descomponerse aún más con Ahora esto puede estar limitado por dos pasos:Z

Z=ZEZ+EZ.
  1. Límite usando desigualdad McDiarmidZEZ

  2. Limitado con la complejidad de RademacherEZRn(C)=EsupgC|1/ni=1nl(g(Xi),Yi)|

Usando la desigualdad de McDiarmids, se puede demostrar que si la función de pérdida varía en un intervalo no mayor que , el paso uno da como resultado un límite de donde es el nivel de confianza. Para el segundo paso, podemos mostrar que Si tiene una función de pérdida discreta, es decir, no Lipschitz como el 0-1 -loss, necesitaría la Dimensión VC para limitar aún más la Complejidad de Rademacher. Sin embargo, para las funciones de L-lipschitz, como la pérdida de bisagra, esto puede aún más por whereB

ZEZ2Bln(1/δ)2n,
δ
EZ2Rn(C),
Rn(C)λLR/n,

λdenota el regularizador. Dado que para la pérdida de articulación y (probar con la desigualdad de Gauchy-Schwartz) esto se simplifica aún más. Finalmente, juntando todos los resultados, podemos un límite de L=1B=1+λR
L(g^n)L(gc)2(1+λR)ln(1/δ)2n+4λLR/n
dkoehn
fuente