Me preguntaba si era posible entrenar un SVM (digamos uno lineal, para facilitar las cosas) usando la propagación hacia atrás.
Actualmente, estoy en un obstáculo, porque solo puedo pensar en escribir la salida del clasificador como
Por lo tanto, cuando intentamos calcular el "paso hacia atrás" (error propagado) obtenemos desde la derivada de es
Del mismo modo, encontramos que , lo que significa que no podemos transmitir ninguna información ni realizar actualizaciones de gradiente.
¿Lo que da?
Si solo le interesa el caso lineal, entonces la regresión logística (LR) es una mejor opción, ya que es convexa y analítica (es posible que desee dividirla si está interesado en la regularización). Pero cuando optas por lo no lineal, ahí es donde entra en juego la parte difícil. Para los casos no lineales no hay una forma razonable de mantener las cosas convexas y analíticas, tendrá que sacrificar uno de los dos. En las redes neuronales se sacrifica la convexidad y en las svms se sacrifica el holomorfismo.
estrictamente hablando no hay diferencia entre LR y SVM, los svms solo predicen en qué lado de la línea se encuentra un punto, los LR también tienen en cuenta qué tan lejos se encuentran del límite (en la línea de margen límite, el sigmoide le da la probabilidad 0.5 en caso de LR). Los SVM se ven obligados a hacer este compromiso porque para los núcleos no lineales la intuición de la distancia desde un hiperplano curvo (la variedad algebraica es un término mejor) no es la misma que en el caso lineal, de hecho, el problema de resolver la distancia más corta desde una hiper superficie en un punto específico es muy difícil (más difícil que el SVM en sí), pero por otro lado, Vapnik se dio cuenta de que solo predecir en qué lado de la frontera se encuentra un punto es muy fácil como en el tiempo O (1). Esta es la verdadera idea detrás de SVM, por lo que es la única alternativa de optimización convexa disponible en la teoría del aprendizaje estadístico. Pero mi sensación es que sacrificas demasiado, tanto el holomorfismo como la naturaleza probabilística se pierden. Pero para casos específicos como las SVM de verificación de terreno son muy confiables y también son modelos científicos completamente falsificables a diferencia de sus alternativas no convexas.
Tldr: sí, el teorema del valor medio viene a rescatar las funciones no analíticas. En los casos convexos no analíticos, el teorema del valor medio se convierte en una desigualdad que establece algunas condiciones de contorno en los sub-gradientes que usan para hacer un subdegradado decente
fuente