Interpretación de la distancia desde el hiperplano en SVM

Tengo algunas dudas para entender los SVM de forma intuitiva. Supongamos que hemos entrenado un modelo SVM para la clasificación utilizando alguna herramienta estándar como SVMLight o LibSVM.

Cuando usamos este modelo para la predicción de datos de prueba, el modelo genera un archivo con valores "alfa" para cada punto de prueba. Si el valor alfa es positivo, el punto de prueba pertenece a la Clase 1, de lo contrario, pertenece a la Clase 2. Ahora, ¿podemos decir que un punto de prueba con mayor valor "alfa" pertenece a la clase correspondiente con una probabilidad "mayor"?
Similar a la primera pregunta, cuando tenemos un SVM entrenado. Los SV se encuentran muy cerca del hiperplano. Entonces, ¿eso significa que los SV pertenecen a esa clase con alta probabilidad? ¿Podemos relacionar la probabilidad de que un punto pertenezca a una clase con su distancia del "hiperplano"? ¿El valor "alfa" representa la distancia desde el "hiperplano"?

Gracias por tu contribución.

machine-learning svm max-margin Amit
fuente

Creo que la respuesta es "no", pero no me interesan las SVM para darle una respuesta completa. Mi respuesta es que cuando estás en el lado este del Muro de Berlín, bueno, estás en el lado equivocado, no importa cuán lejos estés de él.

Arthur

scikits.learn tiene predic_proba para SVC y linear_model.SGDClassifier, creo que solo para clasificadores binarios; Aunque no lo he usado.

denis

Respuestas:

$\sum_i \|y_i - \langle w, x_i\rangle - b\|_2^2$ $\|w\|_2^2$ $w$ $p(w|(y_1,x_1),...,(y_m,x_m)) \propto 1/Z \exp(-\|w\|_2^2)\prod_i \exp(\|y_i - \langle w, x_i\rangle - b\|_2^2)$ $w$ $Z$ se asegura de que se normalice). Llegas a la probabilidad gaussiana de la función de pérdida volteando su signo y exponiéndolo. Sin embargo, si hace eso con la función de pérdida de la SVM, la probabilidad logarítmica no es un modelo probabilístico normalizable.

Hay intentos de convertir SVM en uno. El más notable, que creo que también está implementado en libsvm es:

John Platt: Resultados probabilísticos para máquinas de vectores de soporte y comparación con métodos de probabilidad regularizados (NIPS 1999): http://www.cs.colorado.edu/~mozer/Teaching/syllabi/6622/papers/Platt1999.pdf

Para responder a su pregunta de manera más específica: la idea en SVM es que cuanto más lejos esté un vector de prueba del hiperplano, más pertenecerá a una clase determinada (excepto cuando, por supuesto, está en el lado equivocado). En ese sentido, los vectores de soporte no pertenecen a la clase con alta probabilidad porque son los más cercanos o están en el lado equivocado del hiperplano. El valor que obtiene de libsvm no tiene nada que ver con el en la función de decisión. Es más bien la salida de la función de decisión (y, por lo tanto, debería llamarse correctamente ). Dado que donde $\alpha$ $\alpha$ $\sum_{i \in SV}\alpha_i k(x,x_i) + b$ $y$ $y = \sum_{i \in SV}\alpha_i k(x,x_i) + b = \langle w, \phi(x) \rangle_{\mathcal H} + b$ $w$ vive en el espacio de reproducción de Hilbert del núcleo, es proporcional a la distancia firmada al hiperplano. Sería si se divide por la norma de , que en términos del núcleo es . $y$ $w$ $\|w\|_{H} = \sqrt{\sum_{i,j\in SV} \alpha_i \alpha_j k(x_i,x_j)}$

fabee
fuente

gracias por su explicación ... leerá el periódico

Amit