pérdida de la bisagra frente a la pérdida logística ventajas y desventajas / limitaciones

14

La pérdida de bisagra se puede definir usando y la pérdida de registro se puede definir como $\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)$ $\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i))$

Tengo las siguientes preguntas:

¿Hay alguna desventaja en la pérdida de la bisagra (por ejemplo, sensible a los valores atípicos como se menciona en http://www.unc.edu/~yfliu/papers/rsvm.pdf )?
¿Cuáles son las diferencias, ventajas y desventajas de uno en comparación con el otro?

machine-learning svm loss-functions computer-vision usuario570593
fuente

22

La minimización de la pérdida logarítmica conduce a resultados probabilísticos con buen comportamiento.

La pérdida de la bisagra conduce a una escasez (no garantizada) en el dual, pero no ayuda en la estimación de probabilidad. En cambio, castiga las clasificaciones erróneas (por eso es tan útil determinar los márgenes): la disminución de la pérdida de bisagra viene con la disminución de las clasificaciones erróneas de margen.

Entonces, resumiendo:

La pérdida logarítmica conduce a una mejor estimación de probabilidad a costa de la precisión.
La pérdida de la bisagra conduce a una mejor precisión y cierta dispersión a costa de mucha menos sensibilidad con respecto a las probabilidades

Firebug
fuente

1

+1. Minimizar la pérdida logística corresponde a maximizar la probabilidad binomial. Minimizar la pérdida de error al cuadrado corresponde a maximizar la probabilidad gaussiana (es solo una regresión de OLS; para la clasificación de 2 clases es en realidad equivalente a LDA). ¿Sabes si minimizar la pérdida de la bisagra corresponde a maximizar alguna otra probabilidad? Es decir, ¿hay algún modelo probabilístico correspondiente a la pérdida de la bisagra?

ameba dice Reinstate Monica

1

@amoeba Es una pregunta interesante, pero las SVM no están basadas inherentemente en modelos estadísticos. Dicho esto, verifique esta respuesta por Glen_b. Todo el hilo es sobre eso, pero para la bisagra insensible a épsilon.

Firebug

4

@Firebug tuvo una buena respuesta (+1). De hecho, tuve una pregunta similar aquí.

¿Cuáles son los impactos de elegir diferentes funciones de pérdida en la clasificación para aproximar la pérdida 0-1?

Solo quiero agregar más sobre otras grandes ventajas de la pérdida logística: la interpretación probabilística. Un ejemplo, se puede encontrar aquí

Específicamente, la regresión logística es un modelo clásico en la literatura estadística. (Ver, ¿Qué significa el nombre "Regresión logística"? Para nombrar). Existen muchos conceptos importantes relacionados con la pérdida logística, como maximizar la estimación de probabilidad de registro, pruebas de razón de probabilidad, así como suposiciones sobre binomio. Aquí hay algunas discusiones relacionadas.

Prueba de razón de probabilidad en R

¿Por qué la regresión logística no se llama clasificación logística?

¿Existe alguna suposición sobre regresión logística?

Diferencia entre modelos logit y probit

Haitao Du
fuente

1

Como @ hxd1011 agregó una ventaja de la entropía cruzada, agregaré un inconveniente.

El error de entropía cruzada es una de las muchas medidas de distancia entre las distribuciones de probabilidad, pero un inconveniente es que las distribuciones con colas largas se pueden modelar mal con demasiado peso dado a los eventos poco probables.

Aerin
fuente

pérdida de la bisagra frente a la pérdida logística ventajas y desventajas / limitaciones

Respuestas: