¿Por qué la escala es importante para la clasificación lineal SVM?

15

Al realizar la clasificación SVM lineal, a menudo es útil normalizar los datos de entrenamiento, por ejemplo restando la media y dividiendo por la desviación estándar, y luego escalar los datos de prueba con la media y la desviación estándar de los datos de entrenamiento. ¿Por qué este proceso cambia dramáticamente el rendimiento de la clasificación?

Qinghua
fuente
1
Esta pregunta ya ha sido respondida stackoverflow.com/questions/15436367/svm-scaling-input-values
jpmuc
Gracias juampa! Sin embargo, todavía no estoy del todo claro por qué el conjunto de pruebas necesita ser escalado con la media y estándar del conjunto de entrenamiento en lugar de la suya. En algunos casos, el último parece funcionar bien o incluso mejor cuando las dos clases de muestras están bien equilibradas en el conjunto de prueba.
Qinghua
1
porque entonces no estás siendo consistente. Estás probando en diferentes datos. Imagine que extrae las muestras de una N gaussiana (mu, sigma). Entrenaste con N (0,1) (después de centrar y escalar) pero
probaste

Respuestas:

12

Creo que puede hacerse más claro a través de un ejemplo. Digamos que tiene dos vectores de entrada: X1 y X2. y digamos que X1 tiene rango (0.1 a 0.8) y X2 tiene rango (3000 a 50000). Ahora su clasificador SVM será un límite lineal en el plano X1-X2. Mi afirmación es que la pendiente del límite de decisión lineal no debe depender del rango de X1 y X2, sino de la distribución de puntos.

Ahora hagamos una predicción sobre el punto (0.1, 4000) y (0.8, 4000). Casi no habrá diferencia en el valor de la función, lo que hace que SVM sea menos preciso, ya que tendrá menos sensibilidad a los puntos en la dirección X1.

Vineeth
fuente
7

SVM intenta maximizar la distancia entre el plano de separación y los vectores de soporte. Si una entidad (es decir, una dimensión en este espacio) tiene valores muy grandes, dominará a las otras entidades al calcular la distancia. Si cambia la escala de todas las características (por ejemplo, a [0, 1]), todas tienen la misma influencia en la métrica de distancia.

jrieke
fuente