Límites de generalización en SVM

Estoy interesado en los resultados teóricos para la capacidad de generalización de las máquinas de vectores de soporte, por ejemplo, límites en la probabilidad de error de clasificación y en la dimensión Vapnik-Chervonenkis (VC) de estas máquinas. Sin embargo, al leer la literatura he tenido la impresión de que algunos resultados recurrentes similares tienden a diferir ligeramente de un autor a otro, en particular con respecto a las condiciones técnicas requeridas para un determinado límite.

A continuación recordaré la estructura del problema SVM y declararé 3 de los principales resultados de generalización que he encontrado de forma recurrente de una forma u otra $-$ doy 3 referencias principales a lo largo de la exposición.

Configuración del problema :

Supongamos que tenemos una muestra de datos de pares independientes e idénticamente distribuidos (iid) $(x_i,y_i)_{1\leq i\leq n}$ donde para todo $i$ , $x_i \in \mathbb{R}^p$ y $y_i \in \{-1,1\}$ . Construimos una máquina de vectores de soporte (SVM) que maximiza el margen mínimo $m^*$ entre el hiperplano de separación definido por $\{x : w \cdot x + b = 0\}$ , $w \in \mathbb{R}^p$ y $b \in \mathbb{R}$ , y el punto más cercano entre $x_1,\cdots,x_n$ para separar las dos clases definidas por $y = -1$ e $y = 1$ . Dejamos que el SVM admita algunos errores a través de un margen blando introduciendo variables de holgura $\xi_1,\cdots,\xi_n$ $-$ pero por simplicidad de notación ignoramos la posibilidad de núcleos. Los parámetros de la solución $w^*$ y $b^*$ se obtienen resolviendo el siguiente programa de optimización cuadrática convexa:

\begin{aligned} min_{w, b, ξ_{1}, \dots, ξ_{n}} & \frac{1}{2} ‖ w ‖^{2} + C \sum_{i = 1}^{n} ξ_{i} \\ s.t. : & y_{i} (w \cdot x_{i} + b) \geq 1 - ξ_{i} & , \forall i \in {1, \dots, n} \\ ξ_{i} \geq 0 & , \forall i \in {1, \dots, n} \end{aligned}

$\begin{align} \min_{w, \, b, \, \xi_1, \, \cdots, \, \xi_n} \; & \; \frac{1}{2}\|w\|^2 + C\sum_{i=1}^n\xi_i \\ \text{s.t.} \; : \; & \; y_i(w\cdot x_i+b) \geq 1 - \xi_i \, & , \, \forall \, i \in \{1,\cdots,n\} \\ & \; \xi_i \geq 0\, & , \, \forall \, i \in \{1,\cdots,n\} \end{align}$

Estamos interesados en la capacidad de generalización de esta máquina.

Vapnik-Chervonenkis dimensión $VC$ :

Un primer resultado se debe a (Vapnik, 2000), en el que limita la dimensión VC de un hiperplano de separación, teorema 5.1. Dejar que $R = \max_{x_i} \|x_i\|$ , tenemos:

V C \leq min ({(\frac{R}{m^{*}})}^{2}, p) + 1

$VC \leq \min \left( \left( \frac{R}{m^*}\right)^2, \, p\right) + 1$

Este resultado se puede encontrar nuevamente en (Burges, 1998), teorema 6. Sin embargo, parece que el teorema de Burges es más restrictivo que el mismo resultado de Vapnik, ya que necesita definir una categoría especial de clasificadores, conocidos como clasificadores tolerantes a huecos. $-$ a la que pertenece el SVM $-$ , para establecer el teorema.

Límites en la probabilidad de errores :

En (Vapnik, 2000), el teorema 5.2 en la página 139 da el siguiente límite en la capacidad de generalización SVM:

E [P_{error}] \leq \frac{1}{n} E [min (p, n_{S V}, (R ‖ w ‖)^{2})]

$\mathbb{E}[P_{\text{error}}] \leq \frac{1}{n}\mathbb{E} \left[ \min\left(p,n_{SV},(R \, \|w\|)^2 \right) \right]$

donde es el número de vectores de soporte de la SVM. Este resultado parece encontrarse nuevamente en (Burges, 1998), ecuaciones (86) y (93) respectivamente. Pero de nuevo, Burges parece diferir de Vapnik ya que separa los componentes dentro de la función mínima anterior en diferentes teoremas, con diferentes condiciones. $n_{SV}$

Otro resultado que aparece en (Vapnik, 2000), p.133, es el siguiente. Suponiendo nuevamente que, para todo , y dejando que y , definimos para que sea igual a: $i$ $\|x_i\|^2 \leq R^2$ $h \equiv VC$ $\epsilon \in [0,1]$ $\zeta$

ζ = 4 \frac{h (ln \frac{2 n}{h} + 1) - ln \frac{ϵ}{4}}{n}

$\zeta = 4 \frac{h\left( \text{ln}\frac{2n}{h} + 1\right) - \text{ln}\frac{\epsilon}{4}}{n}$

También definimos como el número de ejemplos de entrenamiento mal clasificados por el SVM. Luego, con probabilidad podemos afirmar que la probabilidad de que un ejemplo de ensayo no se separa correctamente por el -margin hiperplano es decir, SVM con el margen ha unido el: $n_{\text{error}}$ $1-\epsilon$ $m^*$ $-$ $m^*$ $-$

P_{error} \leq \frac{n_{error}}{n} + \frac{ζ}{2} (1 + \sqrt{1 + \frac{4 n_{error}}{n ζ}})

$P_{\text{error}} \leq \frac{n_{\text{error}}}{n} + \frac{\zeta}{2} \left( 1 + \sqrt{1+ \frac{4 \, n_{\text{error}}}{n \, \zeta}} \right)$

Sin embargo, en (Hastie, Tibshirani y Friedman, 2009), p.438, se encuentra un resultado muy similar:

{Error}_{Test} \leq ζ

$\text{Error}_{\text{Test}} \leq \zeta$

conclusión :

Me parece que hay un cierto grado de conflicto entre estos resultados. Por otro lado, dos de estas referencias, aunque canónicas en la literatura SVM, comienzan a ser un poco antiguas (1998 y 2000), especialmente si consideramos que la investigación sobre el algoritmo SVM comenzó a mediados de los noventa.

Mis preguntas son:

¿Estos resultados siguen siendo válidos hoy o se ha demostrado que están equivocados?
¿Se han derivado límites más estrechos con condiciones relativamente flojas desde entonces? Si es así, ¿por quién y dónde puedo encontrarlos?
Finalmente, ¿hay algún material de referencia que sintetice los principales resultados de generalización sobre la SVM?

referencias :

Burges, JC (1998). "Un tutorial sobre máquinas de vectores de soporte para reconocimiento de patrones", Minería de datos y descubrimiento de conocimiento , 2: 121-167

Hastie, T., Tibshirani, R. y Friedman, J. (2009). Los elementos del aprendizaje estadístico , segunda edición, Springer

Vapnik, VN (1998). Teoría del aprendizaje estadístico , primera edición, John Wiley & Sons

Vapnik, VN (1999). "Una visión general de la teoría del aprendizaje estadístico", IEEE Transactions on Neural Networks , 10 (5): 988-999

Vapnik, VN (2000). La naturaleza de la teoría del aprendizaje estadístico , segunda edición, Springer

machine-learning svm vc-dimension Daneel Olivaw
fuente

una referencia que resume los límites de riesgo de vanguardia (a partir de 2008) para SVM: "Support Vector Machines" (Ingo Steinwart, Andreas Christmann, Springer 2008) .

regístrese el

No conozco la literatura a la que te refieres en detalle, pero creo que un resumen completo de los límites de generalización que deberían estar actualizados se puede encontrar en Boucheron et al. (2004) (Enlace: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Canberra-Australia-febrero-2-14-2003-Tuebingen-Alemania-agosto-4-16-2003-Revised-Lectures.pdf # page = 176 )

Dibujaré parte del SVM enlazado a continuación, dejando de lado los detalles y las pruebas.

Antes de elaborar específicamente sobre el límite de SVM, debemos comprender qué están tratando de lograr los límites de generalización.

Primero supongamos que se conoce la probabilidad real entonces el mejor clasificador posible sería el clasificador bayes, es decir, $P(Y = +1| X = x)$

\begin{aligned} g * = {\begin{cases} + 1 i f P (Y = 1 | X = x) > 0.5 \\ - 1 o t h e r w i s e \end{cases} \end{aligned}

$\begin{align} g* = \begin{cases} + 1 \ \ if P(Y = 1| X = x) > 0.5 \\ -1 \ \ otherwise \end{cases} \end{align}$

El objetivo de la teoría del aprendizaje estadístico ahora es encontrar la diferencia entre un clasificador de clase (por ejemplo, SVM) y el clasificador bayes, es decir, Nota que es la pérdida dado datos y esperados es la mejor clasificador posible en la clase del modelo . El término se llama error de estimación y, a menudo, el foco porque puede limitarse mucho más fácilmente que el error de aproximación (el otro término). También omitiré el error de aproximación aquí. $C$

\begin{aligned} {\hat{g}}_{n} = a r g min_{g \in C} L_{n} (g) \end{aligned}

$\begin{align} \hat{g}_n = arg \min_{g \in C} L_n(g) \end{align}$

\begin{aligned} L ({\hat{g}}_{n}) - L (g *) = L ({\hat{g}}_{n}) - L (g_{c}^{*}) + L (g_{c}^{*}) - L (g *) . \end{aligned}

$\begin{align} L(\hat{g}_n) - L(g*) = L(\hat{g}_n) - L(g^{*}_c) + L(g^{*}_c) - L(g*). \end{align}$

L (g) = E l (g (X), Y)

$L(g) = \mathbb{E}l(g(X),Y)$

g_{c}^{*}

$g^{*}_c$

C

$C$

Z =: L (g *) - L ({\hat{g}}_{n})

$Z =: L(g*) - L(\hat{g}_n)$

El error de estimación puede descomponerse aún más con Ahora esto puede estar limitado por dos pasos: $Z$

\begin{aligned} Z = Z - E Z + E Z . \end{aligned}

$\begin{align} Z = Z - \mathbb{E}Z + \mathbb{E}Z. \end{align}$

Límite usando desigualdad McDiarmid $Z - \mathbb{E}Z$
Limitado con la complejidad de Rademacher $\mathbb{E}Z$ $R_n(C) = \mathbb{E}sup_{g \in C}|1/n \sum_{i=1}^{n} l(g(X_i),Y_i)|$

Usando la desigualdad de McDiarmids, se puede demostrar que si la función de pérdida varía en un intervalo no mayor que , el paso uno da como resultado un límite de donde es el nivel de confianza. Para el segundo paso, podemos mostrar que Si tiene una función de pérdida discreta, es decir, no Lipschitz como el 0-1 -loss, necesitaría la Dimensión VC para limitar aún más la Complejidad de Rademacher. Sin embargo, para las funciones de L-lipschitz, como la pérdida de bisagra, esto puede aún más por where $B$

\begin{aligned} Z - E Z \leq 2 B \sqrt{\frac{l n (1 / δ)}{2 n}}, \end{aligned}

$\begin{align} Z - \mathbb{E}Z \leq 2 B \sqrt{\dfrac{ln(1/\delta)}{2n}}, \end{align}$

δ

$\delta$

\begin{aligned} E Z \leq 2 R_{n} (C), \end{aligned}

$\begin{align} \mathbb{E}Z \leq 2R_n(C), \end{align}$

\begin{aligned} R_{n} (C) \leq λ L R / \sqrt{n}, \end{aligned}

$\begin{align} R_n(C) \leq \lambda L R/\sqrt{n}, \end{align}$

λ

$\lambda$ denota el regularizador. Dado que para la pérdida de articulación y (probar con la desigualdad de Gauchy-Schwartz) esto se simplifica aún más. Finalmente, juntando todos los resultados, podemos un límite de

L = 1

$L = 1$

B = 1 + λ R

$B = 1 + \lambda R$

\begin{aligned} L ({\hat{g}}_{n}) - L (g_{c}^{*}) \leq 2 (1 + λ R) \sqrt{\frac{l n (1 / δ)}{2 n}} + 4 λ L R / \sqrt{n} \end{aligned}

$\begin{align} L(\hat{g}_n) - L(g^{*}_c) \leq 2(1 + \lambda R) \sqrt{\dfrac{ln(1/\delta)}{2n}} + 4 \lambda L R/\sqrt{n} \end{align}$

dkoehn
fuente

Límites de generalización en SVM

Respuestas: