Diferencia entre un SVM y un perceptrón

29

Estoy un poco confundido con la diferencia entre un SVM y un perceptrón. Permítanme tratar de resumir mi comprensión aquí, y siéntanse libres de corregir dónde estoy equivocado y completar lo que me he perdido.

El Perceptron no intenta optimizar la separación "distancia". Mientras encuentre un hiperplano que separe los dos conjuntos, es bueno. SVM por otro lado intenta maximizar el "vector de soporte", es decir, la distancia entre dos puntos de muestra opuestos más cercanos.
El SVM generalmente intenta usar una "función de núcleo" para proyectar los puntos de muestra en un espacio de alta dimensión para hacerlos linealmente separables, mientras que el perceptrón asume que los puntos de muestra son linealmente separables.

machine-learning svm kernel-trick Vendetta
fuente

Posible duplicado de comparación de SVM y regresión logística

kjetil b halvorsen

18

A mí me suena bien. Las personas a veces también usan la palabra "Perceptrón" para referirse al algoritmo de entrenamiento junto con el clasificador. Por ejemplo, alguien me explicó esto en la respuesta a esta pregunta . Además, no hay nada que le impida utilizar un núcleo con el perceptrón, y este suele ser un mejor clasificador. Vea aquí algunas diapositivas (pdf) sobre cómo implementar el perceptrón del núcleo.

La principal diferencia práctica entre un perceptrón (núcleo) y SVM es que los perceptrones se pueden entrenar en línea (es decir, sus pesos se pueden actualizar a medida que llegan nuevos ejemplos uno por uno), mientras que los SVM no se pueden entrenar. Consulte esta pregunta para obtener información sobre si los SVM se pueden capacitar en línea. Por lo tanto, aunque un SVM suele ser un mejor clasificador, los perceptrones aún pueden ser útiles porque son baratos y fáciles de volver a entrenar en una situación en la que constantemente llegan nuevos datos de entrenamiento.

Flounderer
fuente

3

Los SVM pueden ser entrenados en línea. De una solución dual puede obtener el primario correspondiente y de este actualizar los pesos de forma estocástica.

Firebug

1

jmlr.org/papers/volume6/bordes05a/bordes05a.pdf

sinθ

4

SVM:

min ‖ w ‖_{2} + do \sum_{yo = 1}^{norte} (1 - y_{yo} (w X_{yo} + w_{0 0}))_{+}

$\min \|w\|_2 + C\sum_{i = 1}^{n}(1 - y_i(wx_i + w_0))_+$ Perceptron

min \sum_{yo = 1}^{norte} (- y_{yo} (w X_{yo} + w_{0 0}))_{+}

$\min \sum_{i = 1}^{n}(- y_i(wx_i + w_0))_+$

Podemos ver que SVM tiene casi el mismo objetivo que el perceptrón regularizado con L2.

$\|w\|_2$

¿Por qué perceptron permite la actualización en línea? Si ve la regla de actualización de descenso de gradiente para la pérdida de la bisagra (SVM y perceptron usan la pérdida de la bisagra),

w^{t} = w^{t - 1} + η \frac{1}{norte} \sum_{yo = 1}^{norte} y^{yo} X^{yo} yo (y^{yo} w^{t} X^{yo} \leq 0 0)

$w^t = w^{t-1} + \eta\frac{1}{N}\sum_{i = 1}^{N}y^ix^i\mathbb{I}(y^iw^tx^i \leq 0)$

Dado que todos los algoritmos de aprendizaje automático pueden verse como la combinación de la función de pérdida y el algoritmo de optimización.

Perceptron no es más que pérdida de bisagra (función de pérdida) + descenso de gradiente estocástico (optimización)

w^{t} = w^{t - 1} + y^{y + 1} X^{t + 1} yo (y^{t + 1} w^{t} X^{t + 1} \leq 0 0)

$w^t = w^{t-1} + y^{y+1}x^{t+1}\mathbb{I}(y^{t+1}w^{t}x^{t+1} \leq 0)$

Y SVM puede verse como pérdida de bisagra + regularización l2 (pérdida + regularización) + programación cuadrática u otros algoritmos de optimización más sofisticados como SMO (optimización).

xxx222
fuente

-1

Perceptron es la generalización de SVM donde SVM es el perceptron con una estabilidad óptima. Entonces tiene razón cuando dice que perceptron no intenta optimizar la distancia de separación.

bharadwaj aldur
fuente

Diferencia entre un SVM y un perceptrón

Respuestas: