¿Qué función de pérdida es correcta para la regresión logística?

31

Leí sobre dos versiones de la función de pérdida para regresión logística, ¿cuál de ellas es correcta y por qué?

De Machine Learning , Zhou ZH (en chino), con : $\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b$

$\begin{matrix} (1) & l (β) = \sum_{i = 1}^{m} (- y_{i} β^{T} x_{i} + \ln (1 + e^{β^{T} x_{i}})) \end{matrix}$ $l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1$
De mi curso universitario, con : $z_i = y_if(x_i)=y_i(w^Tx_i + b)$

$\begin{matrix} (2) & L (z_{i}) = \log (1 + e^{- z_{i}}) \end{matrix}$ $L(z_i)=\log(1+e^{-z_i}) \tag 2$

Sé que la primera es una acumulación de todas las muestras y la segunda es para una sola muestra, pero tengo más curiosidad acerca de la diferencia en la forma de dos funciones de pérdida. De alguna manera tengo la sensación de que son equivalentes.

logistic loss-functions xtt
fuente

31

La relación es la siguiente: . $l(\beta) = \sum_i L(z_i)$

Defina una función logística como . Poseen la propiedad de que . O en otras palabras: $f(z) = \frac{e^{z}}{1 + e^{z}} = \frac{1}{1+e^{-z}}$ $f(-z) = 1-f(z)$

\frac{1}{1 + e^{z}} = \frac{e^{- z}}{1 + e^{- z}} .

$\frac{1}{1+e^{z}} = \frac{e^{-z}}{1+e^{-z}}.$

Si toma el recíproco de ambos lados, tome el registro que obtiene:

\ln (1 + e^{z}) = \ln (1 + e^{- z}) + z .

$\ln(1+e^{z}) = \ln(1+e^{-z}) + z.$

Resta de ambos lados y deberías ver esto: $z$

- y_{i} β^{T} x_{i} + l n (1 + e^{y_{i} β^{T} x_{i}}) = L (z_{i}) .

$-y_i\beta^Tx_i+ln(1+e^{y_i\beta^Tx_i}) = L(z_i).$

Editar:

En este momento estoy releyendo esta respuesta y estoy confundido acerca de cómo obtuve para ser igual a . Quizás haya un error tipográfico en la pregunta original. $-y_i\beta^Tx_i+ln(1+e^{\beta^Tx_i})$ $-y_i\beta^Tx_i+ln(1+e^{y_i\beta^Tx_i})$

Edición 2:

En el caso de que no hubiera un error tipográfico en la pregunta original, @ManelMorales parece ser correcto para llamar la atención sobre el hecho de que, cuando , la función de masa de probabilidad se puede escribir como , debido a la propiedad de que . Lo estoy reescribiendo de manera diferente aquí, porque introduce una nueva equivocación en la notación . El resto sigue tomando la probabilidad de registro negativa para cada codificación . Vea su respuesta a continuación para más detalles. $y \in \{-1,1\}$ $P(Y_i=y_i) = f(y_i\beta^Tx_i)$ $f(-z) = 1 - f(z)$ $z_i$ $y$

Taylor
fuente

42

OP cree erróneamente que la relación entre estas dos funciones se debe a la cantidad de muestras (es decir, individuales frente a todas). Sin embargo, la diferencia real es simplemente cómo seleccionamos nuestras etiquetas de entrenamiento.

En el caso de la clasificación binaria, podemos asignar las etiquetas o . $y=\pm1$ $y=0,1$

Como ya se ha indicado, la función logística es una buena opción ya que tiene la forma de una probabilidad, es decir, y como . Si elegimos las etiquetas podemos asignar $\sigma(z)$ $\sigma(-z)=1-\sigma(z)$ $\sigma(z)\in (0,1)$ $z\rightarrow \pm \infty$ $y=0,1$

\begin{aligned} P (y = 1 | z) & = σ (z) = \frac{1}{1 + e^{- z}} \\ P (y = 0 | z) & = 1 - σ (z) = \frac{1}{1 + e^{z}} \end{aligned}

$\begin{equation} \begin{aligned} \mathbb{P}(y=1|z) & =\sigma(z)=\frac{1}{1+e^{-z}}\\ \mathbb{P}(y=0|z) & =1-\sigma(z)=\frac{1}{1+e^{z}}\\ \end{aligned} \end{equation}$

que se puede escribir de manera más compacta como . $\mathbb{P}(y|z) =\sigma(z)^y(1-\sigma(z))^{1-y}$

Es más fácil maximizar la probabilidad de registro. Maximizar la probabilidad logarítmica es lo mismo que minimizar la probabilidad logarítmica negativa. Para samples , después de tomar el logaritmo natural y alguna simplificación, descubriremos: $m$ $\{x_i,y_i\}$

\begin{aligned} l (z) = - \log (\prod_{i}^{m} P (y_{i} | z_{i})) = - \sum_{i}^{m} \log (P (y_{i} | z_{i})) = \sum_{i}^{m} - y_{i} z_{i} + \log (1 + e^{z_{i}}) \end{aligned}

$\begin{equation} \begin{aligned} l(z)=-\log\big(\prod_i^m\mathbb{P}(y_i|z_i)\big)=-\sum_i^m\log\big(\mathbb{P}(y_i|z_i)\big)=\sum_i^m-y_iz_i+\log(1+e^{z_i}) \end{aligned} \end{equation}$

La derivación completa y la información adicional se pueden encontrar en este cuaderno jupyter . Por otro lado, es posible que hayamos usado las etiquetas . Es bastante obvio que podemos asignar $y=\pm 1$

P (y | z) = σ (y z) .

$\begin{equation} \mathbb{P}(y|z)=\sigma(yz). \end{equation}$

También es obvio que . Siguiendo los mismos pasos que antes, minimizamos en este caso la función de pérdida $\mathbb{P}(y=0|z)=\mathbb{P}(y=-1|z)=\sigma(-z)$

\begin{aligned} L (z) = - \log (\prod_{j}^{m} P (y_{j} | z_{j})) = - \sum_{j}^{m} \log (P (y_{j} | z_{j})) = \sum_{j}^{m} \log (1 + e^{- y z_{j}}) \end{aligned}

$\begin{equation} \begin{aligned} L(z)=-\log\big(\prod_j^m\mathbb{P}(y_j|z_j)\big)=-\sum_j^m\log\big(\mathbb{P}(y_j|z_j)\big)=\sum_j^m\log(1+e^{-yz_j}) \end{aligned} \end{equation}$

Donde sigue el último paso después de tomar el recíproco que es inducido por el signo negativo. Si bien no debemos equiparar estas dos formas, dado que en cada forma toma valores diferentes, sin embargo, estas dos son equivalentes: $y$

\begin{aligned} - y_{i} z_{i} + \log (1 + e^{z_{i}}) \equiv \log (1 + e^{- y z_{j}}) \end{aligned}

$\begin{equation} \begin{aligned} -y_iz_i+\log(1+e^{z_i})\equiv \log(1+e^{-yz_j}) \end{aligned} \end{equation}$

El caso es trivial para mostrar. Si , entonces en el lado izquierdo y en el lado derecho. $y_i=1$ $y_i \neq 1$ $y_i=0$ $y_i=-1$

Si bien puede haber razones fundamentales de por qué tenemos dos formas diferentes (consulte ¿Por qué hay dos formulaciones / anotaciones de pérdida logística diferentes? ), Una razón para elegir la primera es por consideraciones prácticas. En la primera, podemos usar la propiedad para calcular trivialmente y , los cuales son necesarios para el análisis de convergencia (es decir, para determinar la convexidad de la función de pérdida calculando el Hessian ). $\partial \sigma(z) / \partial z=\sigma(z)(1-\sigma(z))$ $\nabla l(z)$ $\nabla^2l(z)$

Manuel Morales
fuente

¿La función de pérdida logística es convexa?

user85361

2

Log reg IS convexo, pero no -convex. Por lo tanto, no podemos establecer un límite sobre cuánto tiempo tarda el descenso de la pendiente en converger. Podemos ajustar la forma de para hacerla fuertemente convexa agregando un término de regularización: con constante positiva defina nuestra nueva función como st es -fuertemente convexo y ahora podemos probar el límite de convergencia de . ¡Desafortunadamente, ahora estamos minimizando una función diferente! Afortunadamente, podemos mostrar que el valor del óptimo de la función regularizada está cerca del valor del óptimo del original.

l (z)

$l(z)$

α

$\alpha$

l

$l$

λ

$\lambda$

l^{'} (z) = l (z) + λ ‖ z ‖^{2}

$l'(z)=l(z)+\lambda\|z\|^2$

l^{'} (z)

$l'(z)$

λ

$\lambda$

l^{'}

$l'$

Manuel Morales

El cuaderno que usted refirió se ha ido, tengo otra prueba: statlect.com/fundamentals-of-statistics/…

Domi.Zhang

2

Encontré que esta es la respuesta más útil.

mohit6up

@ManuelMorales ¿Tiene un enlace al valor óptimo de la función regularizada que está cerca del original?

Mark

19

Aprendí la función de pérdida para la regresión logística de la siguiente manera.

La regresión logística realiza una clasificación binaria, por lo que las salidas de etiqueta son binarias, 0 o 1. Sea la probabilidad de que la salida binaria sea 1 dado el vector de características de entrada . Los coeficientes son los pesos que el algoritmo está tratando de aprender. $P(y=1|x)$ $y$ $x$ $w$

P (y = 1 | x) = \frac{1}{1 + e^{- w^{T} x}}

$P(y=1|x) = \frac{1}{1 + e^{-w^{T}x}}$

Como la regresión logística es binaria, la probabilidad es simplemente 1 menos el término anterior. $P(y=0|x)$

P (y = 0 | x) = 1 - \frac{1}{1 + e^{- w^{T} x}}

$P(y=0|x) = 1- \frac{1}{1 + e^{-w^{T}x}}$

La función de pérdida es la suma de (A) la salida multiplicada por y (B) la salida multiplicada por para un ejemplo de entrenamiento, sumado más de ejemplos de entrenamiento. $J(w)$ $y=1$ $P(y=1)$ $y=0$ $P(y=0)$ $m$

J (w) = \sum_{i = 1}^{m} y^{(i)} \log P (y = 1) + (1 - y^{(i)}) \log P (y = 0)

$J(w) = \sum_{i=1}^{m} y^{(i)} \log P(y=1) + (1 - y^{(i)}) \log P(y=0)$

donde indica la etiqueta en tus datos de entrenamiento. Si una instancia de entrenamiento tiene una etiqueta de , entonces , dejando el sumando izquierdo en su lugar pero haciendo que el sumando derecho con convierta en . Por otro lado, si una instancia de entrenamiento tiene , entonces el sumando derecho con el término permanece en su lugar, pero el sumando izquierdo se convierte en . La probabilidad de registro se usa para facilitar el cálculo. $y^{(i)}$ $i^{th}$ $1$ $y^{(i)}=1$ $1-y^{(i)}$ $0$ $y=0$ $1-y^{(i)}$ $0$

Si luego reemplazamos y con las expresiones anteriores, entonces obtenemos: $P(y=1)$ $P(y=0)$

J (w) = \sum_{i = 1}^{m} y^{(i)} \log (\frac{1}{1 + e^{- w^{T} x}}) + (1 - y^{(i)}) \log (1 - \frac{1}{1 + e^{- w^{T} x}})

$J(w) = \sum_{i=1}^{m} y^{(i)} \log \left(\frac{1}{1 + e^{-w^{T}x}}\right) + (1 - y^{(i)}) \log \left(1- \frac{1}{1 + e^{-w^{T}x}}\right)$

Puede leer más sobre este formulario en estas notas de clase de Stanford .

stackoverflowuser2010
fuente

Esta respuesta también proporciona alguna perspectiva relevante aquí.

GeoMatt22

66

La expresión que tiene no es una pérdida (para ser minimizada), sino más bien una probabilidad logarítmica (para ser maximizada).

xenocyon

2

@xenocyon true: esta misma formulación generalmente se escribe con un signo negativo aplicado a la suma completa.

Alex Klibisz

1

En lugar de Error cuadrático medio, utilizamos una función de costo llamada Cross-Entropy, también conocida como Log Loss. La pérdida de entropía cruzada se puede dividir en dos funciones de costo separadas: una para y = 1 y otra para y = 0.

\begin{aligned} j (θ) & = \frac{1}{m} \sum_{i = 1}^{m} C o s t (h_{θ} (x^{(i)}), y^{(i)}) \\ C o s t (h_{θ} (x), y) & = - \log (h_{θ} (x)) & i f y & = 1 \\ C o s t (h_{θ} (x), y) & = - \log (1 - h_{θ} (x)) & i f y & = 0 \end{aligned}

$\begin{align}\newcommand{\Cost}{{\rm Cost}}\newcommand{\if}{{\rm if}} j(\theta) &= \frac 1 m \sum_{i=1}^m \Cost(h_\theta(x^{(i)}), y^{(i)}) & & \\ \Cost(h_\theta(x), y) &= -\log(h_\theta(x)) & \if\ y &= 1 \\ \Cost(h_\theta(x), y) &= -\log(1-h_\theta(x)) & \if\ y &= 0 \end{align}$

Cuando los juntamos tenemos:

j (θ) = \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} \log (h_{θ} (x^{(i)})) + (1 - y^{(i)}) \log (1 - h_{θ} (x)^{(i)})]

$j(\theta) = \frac 1 m \sum_{i=1}^m \big[y^{(i)}\log(h_\theta(x^{(i)})) + (1-y^{(i)})\log(1-h_\theta(x)^{(i)}) \big]$

Multiplicar por y en la ecuación anterior es un truco engañoso que nos permite usar la misma ecuación para resolver los casos e . Si , el primer lado se cancela. Si , el segundo lado se cancela. En ambos casos solo realizamos la operación que necesitamos realizar. $y$ $(1−y)$ $y=1$ $y=0$ $y=0$ $y=1$

Si no desea utilizar un forbucle, puede probar una forma vectorizada de la ecuación anterior

\begin{aligned} h & = g (X θ) \\ J (θ) & = \frac{1}{m} \cdot (- y^{T} \log (h) - (1 - y)^{T} \log (1 - h)) \end{aligned}

$\begin{align} h &= g(X\theta) \\ J(\theta) &= \frac 1 m \cdot \big(-y^T\log(h)-(1-y)^T\log(1-h)\big) \end{align}$

La explicación completa se puede ver en Cheatsheet de Machine Learning .

Emanuel Fontelles
fuente

¿Qué función de pérdida es correcta para la regresión logística?

Respuestas:

Editar:

Edición 2: