¿Por qué está mal interpretar SVM como probabilidades de clasificación?

Mi comprensión de SVM es que es muy similar a una regresión logística (LR), es decir, se pasa una suma ponderada de características a la función sigmoidea para obtener una probabilidad de pertenecer a una clase, pero en lugar de la pérdida de entropía cruzada (logística) función, el entrenamiento se realiza utilizando la pérdida de la bisagra. El beneficio de usar la pérdida de bisagra es que uno puede hacer varios trucos numéricos para hacer que la kernelisation sea más eficiente. Sin embargo, un inconveniente es que el modelo resultante tiene menos información que un modelo LR correspondiente podría tener. Entonces, por ejemplo, sin la kernelisation (usando un kernel lineal) el límite de decisión SVM todavía estaría en el mismo lugar donde LR generaría una probabilidad de 0.5, PERO uno no puede decir qué tan rápido la probabilidad de pertenecer a una clase se desvanece de la límite de decisión.

Mis dos preguntas son:

¿Es correcta mi interpretación anterior?
¿Cómo el uso de la pérdida de la bisagra hace que sea inválido interpretar los resultados de SVM como probabilidades?

machine-learning logistic svm GingerBadger
fuente

Respuestas:

$\mathbf{x}$ $\mathbf{\beta}$ $\beta_0$ $y = sign(\beta \cdot \mathbf{x} + \beta_0)$ $\beta, \beta_0$

En el caso de un SVM lineal (sin núcleo), el límite del límite de decisión será similar al de un modelo de regresión logística, pero puede variar según la intensidad de regularización que haya utilizado para ajustarse al SVM. Debido a que SVM y LR resuelven diferentes problemas de optimización, no se garantiza que tenga soluciones idénticas para el límite de decisión.

Existen muchos recursos sobre SVM que ayudarán a aclarar las cosas: aquí hay un ejemplo y otro .

el higgs broson
fuente

higgs boson Esto es muy útil, ¡gracias! Solo unas pocas preguntas de seguimiento: (1) ¿podría dar algún ejemplo intuitivo cuando un límite de decisión SVM NO sería similar a un LR ?, (2) es uno de SVM lineal y LR generalmente mejor que el otro, o existen tipos de problemas para los cuales es preferible?

GingerBadger

Alex: en general, los SVM lineales y LR generalmente tienen un rendimiento comparable en la práctica. Si desea una salida probabilística, use LR. Si solo te interesan las tareas de clase, puedes usar cualquiera de ellas. Si quisiera un ejemplo en el que sus límites de decisión serían muy diferentes, podría imaginar un conjunto de datos separables linealmente con un puñado de puntos de la clase equivocada lejos del límite de decisión. Los valores atípicos tirarían del límite de regresión logística hacia ellos, pero si tuviera un SVM con un término de regularización suficientemente grande, ignoraría efectivamente los valores atípicos.

The Higgs Broson