Vectorización de la pérdida de entropía cruzada

9

Estoy tratando con un problema relacionado con encontrar el gradiente de la función de pérdida de entropía cruzada wrt el parámetro donde: $\theta$

$CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})}$

Donde, y es una entrada vectorial. $\hat{y}_{i} = softmax(\theta_i)$ $\theta_i$

Además, es un vector caliente de la clase correcta y es la predicción para cada clase que utiliza la función softmax. $y$ $\hat{y}$

Por lo tanto, por ejemplo, tengamos y $y_i = \begin{pmatrix}0\\0\\0\\1\\0\end{pmatrix}$ $\hat{y}_{i} = \begin{pmatrix}0.10\\0.20\\0.10\\0.40\\0.20\end{pmatrix}$

Para encontrar la derivada parcial $\frac{\partial{CE(\theta)}}{\partial{\theta{ik}}} = -{y_{ik} - \hat{y}_{ik}}$

Tomando de allí para cada los gradientes parciales individuales serán $i$ $\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = \begin{pmatrix}y_{i1} - \hat{y}_{i1}\\y_{i2} - \hat{y}_{i2}\\y_{i3} - \hat{y}_{i3}\\y_{i4} - \hat{y}_{i4}\\y_{i5} - \hat{y}_{i5}\end{pmatrix}$

Pero esto no es cierto porque los gradientes en realidad deberían ser 0 para todas las demás filas, excepto para la cuarta fila, porque hemos utilizado la propiedad del vector caliente. Entonces el gradiente real debe ser $\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = \begin{pmatrix}0\\0\\0\\y_{i4} - \hat{y}_{i4}\\0\end{pmatrix}$

Y por lo tanto los gradientes para todo deben ser $i$ $\frac{\partial{CE(\theta)}}{\partial{\theta}} = \left( \begin{array}{ccc} 0 & 0 & 0 & y_{i4} - \hat{y}_{i4} & 0 \\ 0 & 0 & y_{i3} - \hat{y}_{i3} & 0 & 0 \\ ... \\ 0 & y_{i2} - \hat{y}_{i2} & 0 & 0 & 0 \end{array} \right)$

Pero esto no es igual a . Por lo tanto, no deberíamos llamar al gradiente de la función de entropía cruzada una diferencia vectorial entre el predicho y el original. $\hat{y} - y$

¿Alguien puede aclarar sobre esto?

ACTUALIZACIÓN: Se corrigió mi derivación

$\theta = \left( \begin{array}{c} \theta_{1} \\ \theta_{2} \\ \theta_{3} \\ \theta_{4} \\ \theta_{5} \\ \end{array} \right)$

$CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})}$

Donde, y es una entrada vectorial. $\hat{y}_{i} = softmax(\theta_i)$ $\theta_i$

Además, es un vector caliente de la clase correcta y es la predicción para cada clase que utiliza la función softmax. $y$ $\hat{y}$

$\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = - (log(\hat{y}_{k}))$

ACTUALIZACIÓN: se eliminó el índice de y $y$ $\hat{y}$ Por lo tanto, por ejemplo, tengamos y $y = \begin{pmatrix}0\\0\\0\\1\\0\end{pmatrix}$ $\hat{y} = \begin{pmatrix}0.10\\0.20\\0.10\\0.40\\0.20\end{pmatrix}$

ACTUALIZACIÓN: Se corrigió que estaba tomando wrt derivada , debería ser solo wrt . $\theta_{ik}$ $\theta_{i}$ Para encontrar la derivada parcial $\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = -{y_{k} - \hat{y}_{k}}$

Tomando de allí para cada los gradientes parciales individuales serán $i$ $\frac{\partial{CE(\theta)}}{\partial{\theta}} = \begin{pmatrix}y_{1} - \hat{y}_{1}\\y_{2} - \hat{y}_{2}\\y_{3} - \hat{y}_{3}\\y_{4} - \hat{y}_{4}\\y_{5} - \hat{y}_{5}\end{pmatrix}$

Lo anterior sucede porque Y, Tomando la derivada parcial de wrt obtenemos: $CE(\theta) = -(y_k*log({\hat{y}_{k}}))$ $\hat{y}_{k} = log(softmax(\theta_k)) = \theta_k - log(\sum\nolimits_{j}{exp(\theta_j)})$ $CE(\theta)$ $\theta_i$

$\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = - (\frac{\partial{\theta_k}}{\partial{\theta{i}}} - softmax(\theta_i))$

PASO PRINCIPAL: El hecho de que y crea el vector que completa la prueba. $\frac{\partial{\theta_k}}{\partial{\theta{i}}} = 0, i \neq k$ $\frac{\partial{\theta_k}}{\partial{\theta{i}}} = 1, i = k$ $\frac{\partial{CE(\theta)}}{\partial{\theta}} = \hat{y} - y$

machine-learning neural-networks Shubhanshu Mishra
fuente

2

No, los gradientes no deberían ser cero para los otros componentes. Si su predicción es para algunos y su observación , entonces pronosticó demasiado con . $\hat y_{ij}$ $i,j$ $y_{ij}=0$ $\hat y_{ij}$

Neil G
fuente

Pero siempre será un valor softmax y la observación real. Y debido a que usamos el hecho de que es un vector caliente, por lo tanto, la derivada parcial , dado ¿Estoy cometiendo un error en la diferenciación?

{\hat{y}}_{i j}

$\hat{y}_{ij}$

y_{i j}

$y_{ij}$

y_{i}

$y_i$

\frac{\partial C E (θ)}{\partial θ i j} = 0, \forall j \neq k

$\frac{\partial{CE(\theta)}}{\partial{\theta{ij}}} = 0, \forall j \neq k$

y_{i k} = 1

$y_{ik} = 1$

Shubhanshu Mishra

1

Gracias por su aporte @ neil-g Pude corregir mi derivación del gradent.

Shubhanshu Mishra

15

El siguiente es el mismo contenido que la edición, pero en (para mí) un formato paso a paso un poco más claro:

Estamos tratando de demostrar que:

$\frac{\partial{CE}}{\partial{\theta}} = \hat{y} - y$

dado

$CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})}$

y

$\hat{y}_{i} = \frac{exp(\theta_i)}{\sum\nolimits_{j}{exp(\theta_j)}}$

Lo sabemos $y_{j} = 0$ para $j \neq k$ y $y_k = 1$ , entonces:

$CE(\theta) = -\ log({\hat{y}_{k}})$

$= - \ log(\frac{exp(\theta_k)}{\sum\nolimits_{j}{exp(\theta_j)}})$

$= - \ \theta_k + log(\sum\nolimits_{j}{exp(\theta_j)})$

$\frac{\partial{CE}}{\partial{\theta}} = - \frac{\partial{\theta_k}}{\partial{\theta}} + \frac{\partial}{\partial{\theta}} log(\sum\nolimits_{j}{exp(\theta_j))}$

Usa el hecho de que $\frac{\partial{\theta_k}}{\partial{\theta_k}} = 1$ y $\frac{\partial{\theta_k}}{\partial{\theta_q}} = 0$ para $q \neq k$ , para mostrar que.

$\frac{\partial{\theta_k}}{\partial{\theta}} = y$

Para la segunda parte, escribimos la derivada para cada elemento individual de $\theta$ y usa la regla de la cadena para obtener:

$\frac{\partial}{\partial{\theta_i}} log(\sum\nolimits_{j}{exp(\theta_j))} = \frac{exp(\theta_i)}{\sum\nolimits_{j}{exp(\theta_j)}} = \hat{y}_{i}$

Por lo tanto,

$\frac{\partial{CE}}{\partial{\theta}} = \frac{\partial}{\partial{\theta}} log(\sum\nolimits_{j}{exp(\theta_j))} - \frac{\partial{\theta_k}}{\partial{\theta}} = \hat{y}$ - y

Maarten
fuente

Vectorización de la pérdida de entropía cruzada

Respuestas: