Mi colega y yo estamos tratando de entender la diferencia entre la regresión logística y un SVM. Claramente están optimizando diferentes funciones objetivas. ¿Es un SVM tan simple como decir que es un clasificador discriminatorio que simplemente optimiza la pérdida de la bisagra? ¿O es más complejo que eso? ¿Cómo entran en juego los vectores de soporte? ¿Qué pasa con las variables flojas? ¿Por qué no puedes tener SVM profundos como no puedes tener una red neuronal profunda con funciones de activación sigmoidea?
9
Respuestas:
Ambos son modelos discriminativos, sí. La función de pérdida de regresión logística es conceptualmente una función de todos los puntos. Los puntos clasificados correctamente agregan muy poco a la función de pérdida, agregando más si están cerca del límite. Por lo tanto, los puntos cercanos al límite son más importantes para la pérdida y, por lo tanto, deciden qué tan bueno es el límite.
SVM utiliza una pérdida de bisagra, que conceptualmente pone el énfasis en los puntos límite. Cualquier cosa más allá de los puntos más cercanos no contribuye en nada a la pérdida debido a la "bisagra" (el máximo) en la función. Esos puntos más cercanos son los vectores de soporte, simplemente. Por lo tanto, en realidad se reduce a elegir un límite que cree el margen más grande: la distancia al punto más cercano. La teoría es que el caso límite es todo lo que realmente importa para la generalización.
La desventaja es que la pérdida de la bisagra no es diferenciable, pero eso solo significa que se necesitan más matemáticas para descubrir cómo optimizarla a través de los multiplicadores de Lagrange. Realmente no maneja el caso donde los datos no son linealmente separables. Las variables de holgura son un truco que permite que esta posibilidad se incorpore limpiamente al problema de optimización.
Puede usar la pérdida de bisagra con "aprendizaje profundo", por ejemplo, http://arxiv.org/pdf/1306.0239.pdf
fuente