Al realizar la clasificación SVM lineal, a menudo es útil normalizar los datos de entrenamiento, por ejemplo restando la media y dividiendo por la desviación estándar, y luego escalar los datos de prueba con la media y la desviación estándar de los datos de entrenamiento. ¿Por qué este proceso cambia dramáticamente el rendimiento de la clasificación?
machine-learning
svm
standardization
Qinghua
fuente
fuente
Respuestas:
Creo que puede hacerse más claro a través de un ejemplo. Digamos que tiene dos vectores de entrada: X1 y X2. y digamos que X1 tiene rango (0.1 a 0.8) y X2 tiene rango (3000 a 50000). Ahora su clasificador SVM será un límite lineal en el plano X1-X2. Mi afirmación es que la pendiente del límite de decisión lineal no debe depender del rango de X1 y X2, sino de la distribución de puntos.
Ahora hagamos una predicción sobre el punto (0.1, 4000) y (0.8, 4000). Casi no habrá diferencia en el valor de la función, lo que hace que SVM sea menos preciso, ya que tendrá menos sensibilidad a los puntos en la dirección X1.
fuente
SVM intenta maximizar la distancia entre el plano de separación y los vectores de soporte. Si una entidad (es decir, una dimensión en este espacio) tiene valores muy grandes, dominará a las otras entidades al calcular la distancia. Si cambia la escala de todas las características (por ejemplo, a [0, 1]), todas tienen la misma influencia en la métrica de distancia.
fuente