¿Está bien usar la función de pérdida de entropía cruzada con etiquetas suaves?

La respuesta es sí, pero debe definirla de la manera correcta.

La entropía cruzada se define en distribuciones de probabilidad, no en valores únicos. Para distribuciones discretas y , es: $p$ $q$

H (p, q) = - \sum_{y} p (y) \log q (y)

$H(p, q) = -\sum_y p(y) \log q(y)$

Cuando la pérdida de entropía cruzada se usa con etiquetas de clase 'duras', lo que realmente significa es tratar como la distribución empírica condicional sobre las etiquetas de clase. Esta es una distribución donde la probabilidad es 1 para la etiqueta de clase observada y 0 para todos los demás. es la distribución condicional (probabilidad de etiqueta de clase, entrada dada) aprendida por el clasificador. Para un solo punto de datos observado con la entrada y la clase , podemos ver que la expresión anterior se reduce a la pérdida de registro estándar (que se promediaría en todos los puntos de datos): $p$ $q$ $x_0$ $y_0$

- \sum_{y} I {y = y_{0}} \log q (y ∣ x_{0}) = - \log q (y_{0} ∣ x_{0})

$-\sum_y I\{y = y_0\} \log q(y \mid x_0) = -\log q(y_0 \mid x_0)$

Aquí, es la función del indicador, que es 1 cuando su argumento es verdadero o 0 de lo contrario (esto es lo que está haciendo la distribución empírica). La suma se toma sobre el conjunto de posibles etiquetas de clase. $I\{\cdot\}$

En el caso de las etiquetas "suaves" como usted menciona, las etiquetas ya no son identidades de clase en sí mismas, sino probabilidades sobre dos clases posibles. Debido a esto, no puede usar la expresión estándar para la pérdida de registro. Pero, el concepto de entropía cruzada todavía se aplica. De hecho, parece aún más natural en este caso.

Llamemos a la clase , que puede ser 0 o 1. Y, digamos que la etiqueta suave da la probabilidad de que la clase sea 1 (dada la entrada correspondiente ). Entonces, la etiqueta suave define una distribución de probabilidad: $y$ $s(x)$ $x$

p (y ∣ x) = {\begin{array}{cl} s (x) & If y = 1 \\ 1 - s (x) & If y = 0 \end{array}

$p(y \mid x) = \left \{ \begin{array}{cl} s(x) & \text{If } y = 1 \\ 1-s(x) & \text{If } y = 0 \end{array} \right .$

El clasificador también proporciona una distribución sobre las clases, dada la entrada:

q (y ∣ x) = {\begin{array}{cl} c (x) & If y = 1 \\ 1 - c (x) & If y = 0 \end{array}

$q(y \mid x) = \left \{ \begin{array}{cl} c(x) & \text{If } y = 1 \\ 1-c(x) & \text{If } y = 0 \end{array} \right .$

Aquí, es la probabilidad estimada del clasificador de que la clase es 1, dada la entrada . $c(x)$ $x$

La tarea ahora es determinar cuán diferentes son estas dos distribuciones, utilizando la entropía cruzada. Conecte estas expresiones para y en la definición de entropía cruzada, arriba. La suma se toma sobre el conjunto de posibles clases : $p$ $q$ $\{0, 1\}$

\begin{array}{ccl} H (p, q) & = & - p (y = 0 ∣ x) \log q (y = 0 ∣ x) - p (y = 1 ∣ x) \log q (y = 1 ∣ x) \\ = & - (1 - s (x)) \log (1 - c (x)) - s (x) \log c (x) \end{array}

$\begin{array}{ccl} H(p, q) & = & - p(y=0 \mid x) \log q(y=0 \mid x) - p(y=1 \mid x) \log q(y=1 \mid x)\\ & = & -(1-s(x)) \log (1-c(x)) - s(x) \log c(x) \end{array}$

Esa es la expresión para un único punto de datos observado. La función de pérdida sería la media sobre todos los puntos de datos. Por supuesto, esto también puede generalizarse a la clasificación multiclase.

usuario20160
fuente

Sigo volviendo a la lucidez de esta respuesta.

auro

¿Está bien usar la función de pérdida de entropía cruzada con etiquetas suaves?

Respuestas: