Regularización múltiple mediante gráfico laplaciano en SVM

Estoy tratando de implementar la regularización múltiple en máquinas de vectores de soporte (SVM) en Matlab. Estoy siguiendo las instrucciones en el documento de Belkin et al. (2006), ahí está la ecuación:

$f^{*} = \text{argmin}_{f \in H_k}\sum_{i=1}^{l}V\left(x_i,y_i,f\right)+\gamma_{A}\left\| f \right\|_{A}^{2}+\gamma_{I}\left\| f \right\|_{I}^{2}$

donde V es alguna función de pérdida y es el peso de la norma de la función en el RHKS (o norma ambiental), impone una condición de suavidad en las posibles soluciones, y es el peso de la norma de la función en El múltiple de baja dimensión (o norma intrínseca), que se aplica sin problemas a lo largo de la muestra M. El regularizador ambiental hace que el problema esté bien planteado, y su presencia puede ser realmente útil desde un punto de vista práctico cuando el supuesto del múltiple se mantiene en menor grado . $\gamma_A$ $\gamma_I$

Se ha demostrado en Belkin et al. (2006) que admite una expansión en términos de puntos de S, La función de decisión que discrimina entre la clase +1 y -1 es . $f^*$ $n$ $f^*(x)=\sum_{i=1}^{n}\alpha_i^*k(x_i,x)$ $y(x)=sign(f^*(x))$

El problema aquí es que estoy tratando de entrenar SVM usando LIBSVM en MATLAB pero no quiero modificar el código original, así que he encontrado la versión precalculada de LIBSVM que en lugar de tomar datos de entrada y grupos de salida como parámetros , calcula la matriz de Kernal y la salida agrupa y entrena el modelo SVM. Estoy intentando alimentarlo con la matriz de Kernel regularizada (matriz de Gram) y dejar que haga el resto.

Traté de encontrar la fórmula que regulariza el Kernal y llegué a esto: Definiendo como la matriz de identidad con la misma dimensión que la Matriz del Kernel, $I$ $K$

$G=\frac{2\gamma_AI + 2\gamma_ILK}{I}$

$Gram = KG$

En el que es la matriz gráfica laplaciana, es la matriz del núcleo e es la matriz de identidad. Y se calcula utilizando la multiplicación escalar de dos matrices y . $L$ $K$ $I$ $Gram$ $K$ $G$

¿Hay alguien que pueda ayudarme a descubrir cómo se calcula esto?

machine-learning svm regularization Oficial médico
fuente

lo acabaste haciendo?

Sveltely

@Sveltely Nothing

Moh

Respuestas:

~~Si bien no lo~~ probé , al leer el artículo, el problema de optimización, tanto para SVM como para LapSVM , se da como:

β^{*} = max_{β \in R^{l}} \sum_{i = 1}^{l} β_{i} - \frac{1}{2} β^{T} Q β

$\beta^*=\max_{\beta\in\mathbb R^l} \sum_{i = 1}^{l}\beta_i - {1\over 2}\beta^TQ\beta$ sujeto a:

\sum_{i = 1}^{l} β_{i} y_{i} = 0 0 \leq β_{i} \leq \frac{1}{l}, with i = 1, \dots, l

$\sum_{i = 1}^{l}\beta_iy_i = 0\\ 0 \le \beta_i \le {1\over l}\text{, with }i=1,\dots,l$

Para SVM :

Q_{SVM} = Y (\frac{K}{2 γ}) Y α_{SVM}^{*} = \frac{Y β^{*}}{2 γ}

$Q_{\text{SVM}} = Y\left(K \over 2\gamma\right)Y\\ \alpha^*_{\text{SVM}}={Y\beta^* \over 2\gamma}$

Mientras que para LapSVM tenemos lo siguiente (paréntesis adicionales para aclarar la relación):

Q_{LapSVM} = Y (J K {(2 γ_{A} I + 2 \frac{γ_{I}}{(l + u)^{2}} L K)}^{- 1} J^{T}) Y α_{LapSVM}^{*} = {(2 γ_{A} I + 2 \frac{γ_{I}}{(l + u)^{2}} L K)}^{- 1} J^{T} Y β^{*}

$Q_{\text{LapSVM}} = Y\left( JK \left(2\gamma_AI+2\frac{\gamma_I}{(l+u)^2}LK\right)^{-1} J^T\right)Y\\ \alpha^*_{\text{LapSVM}}= \left(2\gamma_AI+2\frac{\gamma_I}{(l+u)^2}LK\right)^{-1}J^TY\beta^*$

Podemos definir si:

Q_{SVM*} \equiv Q_{LapSVM}

$Q_{\text{SVM*}} \equiv Q_{\text{LapSVM}}$

{\begin{matrix} γ_{SVM*} = 1 / 2 \\ K_{SVM*} = J K_{LapSVM} {(2 γ_{A} I + 2 \frac{γ_{I}}{(l + u)^{2}} L K_{LapSVM})}^{- 1} J^{T} \end{matrix}

$\left\{\begin{matrix} \gamma_{\text{SVM*}} = 1/2 \\ K_{\text{SVM*}}=JK_{\text{LapSVM}}\left(2\gamma_AI+2\frac{\gamma_I}{(l+u)^2}LK_{\text{LapSVM}}\right)^{-1}J^T \end{matrix}\right.$

Último:

α_{LapSVM}^{*} = K_{LapSVM} {(2 γ_{A} I + 2 \frac{γ_{I}}{(l + u)^{2}} L K_{LapSVM})}^{- 1} J^{T} α_{SVM*}^{*}

$\alpha^*_{\text{LapSVM}}= K_{\text{LapSVM}}\left(2\gamma_AI+2\frac{\gamma_I}{(l+u)^2}LK_{\text{LapSVM}}\right)^{-1}J^T \alpha^*_{\text{SVM*}}$

Puedo confirmar que funciona. Vea este ejemplo con un núcleo gaussiano, y cómo la clase virginicacomienza a arrastrarse a los datos no etiquetados cuando comparación con , que es el SVM estándar. $\gamma_I = 2500$ $\gamma_I = 0$

Firebug
fuente