¿Por qué las redes neuronales convolucionales no utilizan una máquina de vectores de soporte para clasificar?

46

En los últimos años, las redes neuronales convolucionales (CNN) se han convertido en el estado del arte para el reconocimiento de objetos en la visión por computadora. Por lo general, una CNN consta de varias capas convolucionales, seguidas de dos capas completamente conectadas. Una intuición detrás de esto es que las capas convolucionales aprenden una mejor representación de los datos de entrada, y las capas completamente conectadas luego aprenden a clasificar esta representación en función de un conjunto de etiquetas.

Sin embargo, antes de que las CNN comenzaran a dominar, las máquinas de vectores de soporte (SVM) eran lo último en tecnología. Por lo tanto, parece razonable decir que un SVM sigue siendo un clasificador más fuerte que una red neuronal completamente conectada de dos capas. Por lo tanto, me pregunto por qué las CNN de última generación tienden a usar las capas completamente conectadas para la clasificación en lugar de una SVM. De esta manera, tendría lo mejor de ambos mundos: una representación de características fuerte y un clasificador fuerte, en lugar de una representación de características fuerte pero solo un clasificador débil ...

¿Algunas ideas?

Karnivaurus
fuente

Respuestas:

54

Se puede hacer; un artículo de taller de ICML, Deep Learning usando Linear Support Vector Machines , Tang (2013) , hizo exactamente esto y encontró mejoras pequeñas pero consistentes. A veces también se hace para entrenar CNN de la manera típica, pero luego toma la salida de una capa tardía como "características" y entrena un SVM separado sobre eso.

Sin embargo, tenga en cuenta que estaban usando SVM lineales , y realmente, la diferencia entre un SVM lineal y una regresión logística (que es equivalente a una sola capa de salida binaria con activación sigmoidea) es bastante pequeña. La capa adicional de la red, suponiendo que tenga suficientes datos para aprenderla, en realidad hace que las dos últimas capas sean más fuertes que un SVM lineal, aunque, por supuesto, podría hacer una capa sigmoide o ReLU completamente conectada y luego colocar una capa SVM al final.

Además, para las salidas multiclase, las activaciones softmax son más naturales que las SVM multiclase, y creo que el enfoque SVM de ese documento es algo más intensivo en cómputo. Entonces la gente generalmente no cree que valga la pena.

Dougal
fuente
0

Hasta donde puedo ver, hay al menos un par de diferencias:

  1. Las CNN están diseñadas para trabajar con datos de imágenes, mientras que SVM es un clasificador más genérico;
  2. Las CNN extraen funciones, mientras que SVM simplemente asigna su entrada a un espacio de alta dimensión donde (con suerte) las diferencias entre las clases pueden revelarse;
  3. Similar a 2., las CNN son arquitecturas profundas, mientras que las SVM son poco profundas;
  4. Los objetivos de aprendizaje son diferentes: los SVM buscan maximizar el margen, mientras que los CNN no lo son (me encantaría saber más)

Dicho esto, los SVM pueden funcionar tan bien como los CNN, siempre que se utilicen buenas características con una buena función del núcleo.

Vladislavs Dovgalecs
fuente
44
Creo que puede haber entendido mal la pregunta; se trata de usar una "capa SVM" al final de la CNN.
Dougal
44
Entiendo la diferencia entre una CNN y una SVM, pero como dice @Dougal, estoy preguntando más sobre la capa final de una CNN. Por lo general, esta es una red neuronal completamente conectada, pero no estoy seguro de por qué los SVM no se usan aquí dado que tienden a ser más fuertes que una red neuronal de dos capas.
Karnivaurus
66
@Karnivaurus Perdón por leer mal su pregunta. La idea no es nueva. Por lo general, la última capa se tira y la salida de la última capa se usa como características en otros algoritmos de clasificación. ¿Por qué no se hace de manera consistente y en todas partes? Las características de la última capa son típicamente tan discriminatorias que no hay necesidad de un cuadro negro sofisticado como SVM, una simple regresión logística hace el trabajo. Esta es mi visión de las cosas.
Vladislavs Dovgalecs