¿Por qué hay dos formulaciones / anotaciones de pérdida logística diferentes?

23

He visto dos tipos de formulaciones de pérdida logística. Podemos mostrar fácilmente que son idénticos, la única diferencia es la definición de la etiqueta y .

Formulación / notación 1, y{0,+1} :

L(y,βTX)=-yIniciar sesión(pags)-(1-y)Iniciar sesión(1-pags)

donde pags=11+exp(-βTX) , donde la función logística asigna un número realβTXal intervalo 0,1.

Formulación / notación 2, y{-1,+1} :

L(y,βTx)=log(1+exp(yβTx))

Elegir una notación es como elegir un idioma, hay ventajas y desventajas para usar una u otra. ¿Cuáles son los pros y los contras de estas dos notaciones?


Mis intentos de responder a esta pregunta es que parece que a la comunidad de estadística le gusta la primera notación y a la comunidad de informática le gusta la segunda notación.

  • La primera notación se puede explicar con el término "probabilidad", ya que la función logística transforma un número real βTx en un intervalo de 0,1.
  • Y la segunda notación es más concisa y es más fácil de comparar con pérdida de bisagra o pérdida de 0-1.

Estoy en lo cierto? ¿Alguna otra idea?

Haitao Du
fuente
44
Estoy seguro de que esto ya debe haberse preguntado varias veces. Por ejemplo stats.stackexchange.com/q/145147/5739
StasK
1
¿Por qué dice que la segunda notación es más fácil de comparar con la pérdida de bisagra? ¿Solo porque está definido en lugar de { 0 , 1 } o algo más? {1,1}{0,1}
shadowtalker
1
Me gusta un poco la simetría de la primera forma, pero la parte lineal está enterrada bastante profunda, por lo que puede ser difícil trabajar con ella.
Matthew Drury
@ssdecontrol, compruebe esta figura, cs.cmu.edu/~yandongl/loss.html donde el eje x es , y el eje y es el valor de pérdida. Tal definición es conveniente para comparar con 01 pérdida, pérdida de bisagra, etc.yβTx
Haitao Du

Respuestas:

12

La versión corta

La versión larga

Lo bueno del modelado matemático es que es flexible. Estas son funciones de pérdida equivalentes, pero derivan de modelos subyacentes muy diferentes de los datos.

Fórmula 1

La primera notación deriva de un modelo de probabilidad de Bernoulli para , que se define convencionalmente en { 0 , 1 } . En este modelo, el resultado / etiqueta / clase / predicción está representado por una variable aleatoria Y que sigue una distribución B e r n o u l l i ( p ) . Por lo tanto, su probabilidad es: P ( Y = y | p ) = L ( p ; y ) = p yy{0,1}YBernoulli(p)

P(Y=y | p)=L(p;y)=py (1p)1y={1py=0py=1

para p[0,1] . Usar 0 y 1 como los valores del indicador nos permite reducir la función por partes en el extremo derecho a una expresión concisa.

Como ha señalado, puede vincular a una matriz de datos de entrada x dejando logit p = β T x . A partir de aquí, la manipulación algebraica directa revela que log L ( p ; y ) es lo mismo que la primera L ( y , β T x ) en su pregunta (pista: ( y - 1 ) = - ( 1 - y ) ). Entonces, minimizando la pérdida de registro sobre { 0 ,Yxlogitp=βTxlogL(p;y)L(y,βTx)(y1)=(1y) es equivalente a la estimación de máxima verosimilitud de un modelo de Bernoulli.{0,1}

Esta formulación también es un caso especial del modelo lineal generalizado , que se formula como para una función invertible, diferenciable gy una distribución D en la familia exponencial .YD(θ), g(Y)=βTxgD

Formula 2

En realidad ... no estoy familiarizado con la Fórmula 2. Sin embargo, definir en { - 1 , 1 } es estándar en la formulación de una máquina de vectores de soporte . Ajustar un SVM corresponde a maximizar max ( { 0 , 1 - y β T x } ) + λ β 2 .y{1,1}

max({0,1yβTx})+λβ2.

(y,β)+λβ2
λβL(y,βTx) en tu pregunta
Shadowtalker
fuente
En la Fórmula 1, no debería ser:
pagsy(1-pags)1-y1-y
glebm
7

Creo que @ssdecontrol tuvo una muy buena respuesta. Solo quiero agregar algunos comentarios para la fórmula 2 para mi propia pregunta.

L(y,y^)=Iniciar sesión(1+exp(-yy^))

The reason people like this formulation is that it is very concise, and it removes the "probability interpretation details".

The tricky notation is the y^, note, y is a binary variable, but y^ here is a real number. Comparing to formulation 1, we need two additional steps to make it to discrete label, step 1. sigmod function step 2. apply 0.5 threshold.

But without these details are good in terms of we can easily compare it with other classification loss, such as 01 loss or hinge loss.

L01(y,y^)=I[yy^>0]Lhinge(y,y^)=(1yy^)+Llogistic(y,y^)=log(1+exp(yy^))

enter image description here

Here we plot three loss functions, x axis is yy^ and y axis is the loss value. Note, in all above formulas y^ is a real number, and this number can come from linear form βTx or other forms. Such notation hides probability details.

Haitao Du
fuente
I see what you mean about easy comparison
shadowtalker