¿Por qué hay dos formulaciones / anotaciones de pérdida logística diferentes?

He visto dos tipos de formulaciones de pérdida logística. Podemos mostrar fácilmente que son idénticos, la única diferencia es la definición de la etiqueta $y$ .

Formulación / notación 1, $y \in \{0, +1\}$ :

L (y, β^{T} X) = - y Iniciar sesión (pags) - (1 - y) Iniciar sesión (1 - pags)

$L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p)$

donde $p=\frac 1 {1+\exp(-\beta^Tx)}$ , donde la función logística asigna un número real $\beta^T x$ al intervalo 0,1.

Formulación / notación 2, $y \in \{-1, +1\}$ :

L (y, β^{T} x) = \log (1 + \exp (- y \cdot β^{T} x))

$L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx}))$

Elegir una notación es como elegir un idioma, hay ventajas y desventajas para usar una u otra. ¿Cuáles son los pros y los contras de estas dos notaciones?

Mis intentos de responder a esta pregunta es que parece que a la comunidad de estadística le gusta la primera notación y a la comunidad de informática le gusta la segunda notación.

La primera notación se puede explicar con el término "probabilidad", ya que la función logística transforma un número real $\beta^Tx$ en un intervalo de 0,1.
Y la segunda notación es más concisa y es más fácil de comparar con pérdida de bisagra o pérdida de 0-1.

Estoy en lo cierto? ¿Alguna otra idea?

logistic generalized-linear-model notation loss-functions Haitao Du
fuente

Estoy seguro de que esto ya debe haberse preguntado varias veces. Por ejemplo stats.stackexchange.com/q/145147/5739

StasK

¿Por qué dice que la segunda notación es más fácil de comparar con la pérdida de bisagra? ¿Solo porque está definido en

lugar de

o algo más?

{- 1, 1}

$\{-1, 1\}$

{0, 1}

$\{0, 1\}$

shadowtalker

Me gusta un poco la simetría de la primera forma, pero la parte lineal está enterrada bastante profunda, por lo que puede ser difícil trabajar con ella.

Matthew Drury

@ssdecontrol, compruebe esta figura, cs.cmu.edu/~yandongl/loss.html donde el eje x es

, y el eje y es el valor de pérdida. Tal definición es conveniente para comparar con 01 pérdida, pérdida de bisagra, etc.

- y \cdot β^{T} x

$-y\cdot \beta^Tx$

Haitao Du

Respuestas:

La versión corta

La versión larga

Lo bueno del modelado matemático es que es flexible. Estas son funciones de pérdida equivalentes, pero derivan de modelos subyacentes muy diferentes de los datos.

Fórmula 1

La primera notación deriva de un modelo de probabilidad de Bernoulli para , que se define convencionalmente en . En este modelo, el resultado / etiqueta / clase / predicción está representado por una variable aleatoria que sigue una distribución . Por lo tanto, su probabilidad es: $y$ $\{0, 1\}$ $Y$ $\mathrm{Bernoulli}(p)$

P (Y = y | p) = L (p; y) = p^{y} (1 - p)^{1 - y} = {\begin{cases} 1 - p & y = 0 \\ p & y = 1 \end{cases}

$P(Y = y\ |\ p) = \mathcal L(p; y) = p^y\ (1-p)^{1-y} = \begin{cases}1-p &y=0 \\ p &y=1 \end{cases}$

para $p\in[0, 1]$ . Usar 0 y 1 como los valores del indicador nos permite reducir la función por partes en el extremo derecho a una expresión concisa.

Como ha señalado, puede vincular a una matriz de datos de entrada dejando . A partir de aquí, la manipulación algebraica directa revela que es lo mismo que la primera en su pregunta (pista: ). Entonces, minimizando la pérdida de registro sobre $Y$ $x$ $\operatorname{logit} p = \beta^T x$ $\log \mathcal L(p;y)$ $L(y, \beta^Tx)$ $(y - 1) = - (1 - y)$ es equivalente a la estimación de máxima verosimilitud de un modelo de Bernoulli. $\{0, 1\}$

Esta formulación también es un caso especial del modelo lineal generalizado , que se formula como para una función invertible, diferenciable una distribución en la familia exponencial . $Y \sim D(\theta),\ g(Y) = \beta^T x$ $g$ $D$

Formula 2

En realidad ... no estoy familiarizado con la Fórmula 2. Sin embargo, definir en es estándar en la formulación de una máquina de vectores de soporte . Ajustar un SVM corresponde a maximizar $y$ $\{-1, 1\}$

max ({0, 1 - y β^{T} x}) + λ ‖ β ‖^{2} .

$\max \left(\{0, 1 - y \beta^T x \}\right) + \lambda \|\beta\|^2.$

ℓ (y, β) + λ ‖ β ‖^{2}

$\ell(y, \beta) + \lambda \|\beta\|^2$

ℓ

$\ell$

λ

$\lambda$

β

$\beta$

ℓ

$\ell$

L (y, β^{T} x)

$L(y, \beta^Tx)$ en tu pregunta

Shadowtalker
fuente

En la Fórmula 1, no debería ser:

{pags}^{y} (1 - pags)^{1 - y 1 - y}

$p^y(1 - p)^{\pmb{1 - y}}$

glebm

Creo que @ssdecontrol tuvo una muy buena respuesta. Solo quiero agregar algunos comentarios para la fórmula 2 para mi propia pregunta.

L (y, \hat{y}) = Iniciar sesión (1 + \exp (- y \cdot \hat{y}))

$L(y,\hat y)=\log(1+\exp{(-y\cdot \hat y}))$

The reason people like this formulation is that it is very concise, and it removes the "probability interpretation details".

The tricky notation is the $\hat y$ , note, $y$ is a binary variable, but $\hat y$ here is a real number. Comparing to formulation 1, we need two additional steps to make it to discrete label, step 1. sigmod function step 2. apply 0.5 threshold.

But without these details are good in terms of we can easily compare it with other classification loss, such as 01 loss or hinge loss.

L_{01} (y, \hat{y}) = I [y \cdot \hat{y} > 0] L_{hinge} (y, \hat{y}) = (1 - y \cdot \hat{y})_{+} L_{logistic} (y, \hat{y}) = \log (1 + \exp (- y \cdot \hat{y}))

$L_{01}(y,\hat y)=I[y \cdot \hat y >0]\\ L_{\text{hinge}}(y,\hat y)=(1-y \cdot \hat y)_+\\ L_{\text{logistic}}(y,\hat y)=\log(1+\exp(-y \cdot \hat y))$

Here we plot three loss functions, x axis is $y \cdot \hat y$ and y axis is the loss value. Note, in all above formulas $\hat y$ is a real number, and this number can come from linear form $\beta^Tx$ or other forms. Such notation hides probability details.

Haitao Du
fuente

I see what you mean about easy comparison

shadowtalker