Confianza SVM según la distancia desde la hiperlínea

9

Para un clasificador probabilístico de múltiples clases podemos obtener probabilidades de pertenencia de un nuevo punto a cada clase ; en el caso de 3 clases, suponga que obtenemos , por lo tanto, la clase más probable de x es . Ahora suponga que tenemos un svm de varias clases donde podemos obtener puntuaciones de membresía de para cada clase (de acuerdo con las distancias desde las hiperlíneas); en el caso de 3 clases, supongamos que obtenemos , ¿Cómo es en este caso la primera, segunda y tercera clase más probable de (sin convertir estas puntajes a probabilidades)? Usualmente obtengo valores positivos y negativos como por ejemploxyiP(ya|x)>P(yb|x)>P(yc|x)yaxScore(ya|x),Score(yb|x),Score(yc|x)xScore1=8622,Score2=5233,Score3=665

shn
fuente

Respuestas:

11

En realidad, es posible obtener probabilidades de una máquina de vectores de soporte, que podría ser más útil e interpretable que un valor arbitrario de "puntaje". Hay algunos enfoques para hacerlo: un lugar razonable para comenzar es Platt (1999) .

La mayoría de los paquetes / bibliotecas SVM implementan algo como esto (por ejemplo, la opción -b 1 hace que LibSVM produzca probabilidades). Si va a rodar el suyo, debe tener en cuenta que hay algunos problemas numéricos potenciales, resumidos en esta nota por Lin, Lin y Weng (2007) . También proporcionan algunos psuedocode, que también pueden ser útiles.

Edite en respuesta a su comentario : para mí no está claro por qué preferiría un puntaje a una probabilidad, especialmente porque puede obtener la probabilidad con un mínimo esfuerzo extra. Dicho todo esto, la mayoría de los cálculos de probabilidad parecen derivarse de la distancia entre el punto y el hiperplano. Si nos fijamos en la Sección 2 del documento de Platt, él analiza la motivación y dice:

Las densidades condicionales de clase entre los márgenes son aparentemente exponenciales. La regla de Bayes sobre dos exponenciales sugiere usar una forma paramétrica de un sigmoide: Este modelo sigmoide es equivalente a asumir que la salida del SVM es proporcional a la probabilidad logarítmica de un ejemplo de entrenamiento positivo. [MK: se definió en otro lugar como la salida SVM sin procesar].

P(y=1|f)=11+exp(Af+B)
f

El resto de la sección del método describe cómo ajustar los parámetros y de ese sigmoide. En la introducción (Sección 1.0 y 1.1), Platt revisa algunos otros enfoques de Vapnik, Wahba y Hasti & Tibshirani. Estos métodos también usan algo como la distancia al hiperplano, manipulado de varias maneras. Todo esto parece sugerir que la distancia al hiperplano contiene información útil, por lo que supongo que podría usar la distancia bruta como una medida de confianza (no lineal).AB

Matt Krause
fuente
1
Bueno, sé que hay métodos para convertir los puntajes (distancias desde el límite) a probabilidades y que podría ser más interpretable, sin embargo, como se afirma claramente en la pregunta: Quiero usar estos puntajes "sin convertir estos puntajes en probabilidades ". Entonces mi pregunta es: ¿tiene sentido tomar los valores absolutos de todas estas puntuaciones y decir que cuanto más alto es el valor absoluto de una puntuaciónla más probable es de clase ? ¿O debería comparar los puntajes sin los valores absolutos? o ...? |si|xi
shn
0

Si el conjunto de datos de entrenamiento está razonablemente equilibrado y tiene características estandarizadas, tomaré los puntajes SVM como la medida de confianza para pertenecer a las clases respectivas. Los llamados métodos de calibración que convierten los puntajes en cantidades similares a la probabilidad, como la escala de Platt, generalmente usan funciones monótonas (como la función logística) para asignar los puntajes a las probabilidades. Por lo tanto, si solo desea comparar los niveles de confianza de un modelo SVM aprendido en un punto de datos de prueba en particular que pertenece a clases posibles, simplemente puede comparar los valores de puntaje (no sus valores absolutos) dado que el conjunto de datos de entrenamiento del cual se aprende el modelo es bastante equilibrado y no tiene ninguna peculiaridad inusual.

Reza
fuente
No entiendo esta respuesta.
Michael R. Chernick
Lo edité para aclarar mi punto.
Reza