¿NeuralNetwork de capa única con activación de ReLU igual a SVM?

10

Supongamos que tengo una red neuronal simple de una sola capa, con n entradas y una única salida (tarea de clasificación binaria). Si configuro la función de activación en el nodo de salida como una función sigmoidea, entonces el resultado es un clasificador de Regresión logística.

En este mismo escenario, si cambio la activación de salida a ReLU (unidad lineal rectificada), ¿la estructura resultante es igual o similar a una SVM?

Si no, ¿por qué?

ANUNCIO
fuente
¿Tiene alguna hipótesis sobre por qué ese podría ser el caso? La razón por la cual un solo perceptrón = logístico es exactamente debido a la activación: son esencialmente el mismo modelo, matemáticamente (aunque tal vez entrenados de manera diferente): pesos lineales + un sigmoide aplicado a la multiplicación de la matriz. Los SVM funcionan de manera bastante diferente: buscan la mejor línea para separar los datos, son más geométricos que "pesados" / "matriciales". Para mí, no hay nada acerca de las ReLU que me haga pensar = ah, son iguales a un SVM. (La SVM lineal y logística tienden a funcionar de manera muy similar)
metjush
El objetivo de margen máximo de un svm y la función de activación relu se ven iguales. De ahí la pregunta.
AD
"Los SVM funcionan de manera bastante diferente: buscan la mejor línea para separar los datos, son más geométricos que" pesados ​​"/" matriciales ". y perceptrón.
AD

Respuestas:

11

E=max(1ty,0)

Para que la pérdida de red tenga la misma forma que las SVM, podemos eliminar cualquier función de activación no lineal de la capa de salida y usar la pérdida de bisagra para la propagación hacia atrás.

E=ln(1+exp(ty))

Entonces, en términos de funciones de pérdida, los SVM y la regresión logística están bastante cerca, aunque los SVM usan un algoritmo muy diferente para el entrenamiento y la inferencia basados ​​en vectores de soporte.

Hay una buena discusión sobre la relación de SVM y la regresión logística en la sección 7.1.2 del libro Reconocimiento de patrones y aprendizaje automático .

ingrese la descripción de la imagen aquí

dontloo
fuente
Gracias por señalar el libro. Así que tengo la sensación de que, aparte de las funciones de activación, la verdadera diferencia está en los algoritmos de optimización utilizados. Para LR podemos usar un simple descenso de gradiente sin restricciones, mientras que en SVM generalmente resolvemos una optimización restringida.
AD