Leí sobre SVM y aprendí que están resolviendo un problema de optimización y que la idea de margen máximo era muy razonable.
Ahora, usando núcleos pueden encontrar incluso límites de separación no lineales, lo cual fue genial.
Hasta ahora, realmente no tengo idea de cómo se relacionan las SVM (una máquina kernel especial) y las máquinas kernel con las redes neuronales.
Considere los comentarios de Yann Lecun => aquí :
kernel methods were a form of glorified template matching
y aquí también :
Por ejemplo, algunas personas quedaron deslumbradas por los métodos del kernel debido a las lindas matemáticas que lo acompañan. Pero, como he dicho en el pasado, al final, las máquinas kernel son redes superficiales que realizan una "coincidencia de plantilla glorificada". No hay nada de malo en eso (SVM es un gran método), pero tiene limitaciones terribles que todos deberíamos tener en cuenta.
Entonces mis preguntas son:
- ¿Cómo se relaciona la SVM con la red neuronal? ¿Cómo es una red superficial?
- SVM resuelve un problema de optimización con una función objetivo bien definida, ¿cómo está haciendo la coincidencia de plantillas? ¿Cuál es la plantilla aquí con la que coincide una entrada?
Supongo que estos comentarios necesitan una comprensión profunda de espacios de alta dimensión, redes neuronales y máquinas kernel, pero hasta ahora he estado intentando y no pude comprender la lógica detrás de esto. Pero seguramente es interesante observar las conexiones entre dos técnicas de ml muy diferentes.
EDITAR: Creo que comprender los SVM desde una perspectiva neuronal sería genial. Estoy buscando una respuesta matemática exhaustiva respaldada por las dos preguntas anteriores, para comprender realmente el vínculo entre SVM y redes neuronales, tanto en el caso de SVM lineal como de SVM con el truco del núcleo.
Respuestas:
El SVM es una red neuronal de capa única con la pérdida de bisagra como función de pérdida y activación exclusivamente lineal. El concepto ha sido aludido en subprocesos anteriores, como este: ¿ NeuralNetwork de capa única con activación RelU igual a SVM?
La matriz de Gram (Kernel Matrix, si lo prefiere) es una medida de similitud. Como el SVM permite soluciones dispersas, la predicción se convierte en una cuestión de comparar su muestra con las plantillas, es decir, los vectores de soporte.
fuente