¿Cómo son las SVM = Coincidencia de plantillas?

10

Leí sobre SVM y aprendí que están resolviendo un problema de optimización y que la idea de margen máximo era muy razonable.

Ahora, usando núcleos pueden encontrar incluso límites de separación no lineales, lo cual fue genial.

Hasta ahora, realmente no tengo idea de cómo se relacionan las SVM (una máquina kernel especial) y las máquinas kernel con las redes neuronales.

Considere los comentarios de Yann Lecun => aquí :

kernel methods were a form of glorified template matching

y aquí también :

Por ejemplo, algunas personas quedaron deslumbradas por los métodos del kernel debido a las lindas matemáticas que lo acompañan. Pero, como he dicho en el pasado, al final, las máquinas kernel son redes superficiales que realizan una "coincidencia de plantilla glorificada". No hay nada de malo en eso (SVM es un gran método), pero tiene limitaciones terribles que todos deberíamos tener en cuenta.

Entonces mis preguntas son:

  1. ¿Cómo se relaciona la SVM con la red neuronal? ¿Cómo es una red superficial?
  2. SVM resuelve un problema de optimización con una función objetivo bien definida, ¿cómo está haciendo la coincidencia de plantillas? ¿Cuál es la plantilla aquí con la que coincide una entrada?

Supongo que estos comentarios necesitan una comprensión profunda de espacios de alta dimensión, redes neuronales y máquinas kernel, pero hasta ahora he estado intentando y no pude comprender la lógica detrás de esto. Pero seguramente es interesante observar las conexiones entre dos técnicas de ml muy diferentes.

EDITAR: Creo que comprender los SVM desde una perspectiva neuronal sería genial. Estoy buscando una respuesta matemática exhaustiva respaldada por las dos preguntas anteriores, para comprender realmente el vínculo entre SVM y redes neuronales, tanto en el caso de SVM lineal como de SVM con el truco del núcleo.

Rafael
fuente
Los SVM son bastante fáciles y rápidos de entrenar dado un núcleo apropiado. Algunas tareas no necesitan una red neuronal profunda.
Vladislavs Dovgalecs
@xeon hola, ¿puedes echar un vistazo a la respuesta? Supongo que necesita mejorar. Gracias.
Rafael

Respuestas:

7
  1. ¿Cómo se relaciona la SVM con la red neuronal? ¿Cómo es una red superficial?

El SVM es una red neuronal de capa única con la pérdida de bisagra como función de pérdida y activación exclusivamente lineal. El concepto ha sido aludido en subprocesos anteriores, como este: ¿ NeuralNetwork de capa única con activación RelU igual a SVM?

  1. SVM resuelve un problema de optimización con una función objetivo bien definida, ¿cómo está haciendo la coincidencia de plantillas? ¿Cuál es la plantilla aquí con la que coincide una entrada?

La matriz de Gram (Kernel Matrix, si lo prefiere) es una medida de similitud. Como el SVM permite soluciones dispersas, la predicción se convierte en una cuestión de comparar su muestra con las plantillas, es decir, los vectores de soporte.

Firebug
fuente
gracias por la respuesta, por favor explique un poco más con algunas matemáticas preferiblemente. Eso sería realmente genial :)
Rafael
Entiendo más o menos la coincidencia de plantillas, pero no recibí la declaración: como SVM permite soluciones dispersas ... ¿qué tienen que hacer las soluciones dispersas para hacer algo aquí? La predicción por definición se realiza mediante una similitud de pesaje con las plantillas, por lo que no entiendo de dónde proviene la escasez. Además, agregue algunas líneas con respecto a la función de activación de pérdida de bisagra. Muchas gracias :)
Rafael