Registro de probabilidades en referencia al clasificador softmax

Respuestas:

9

Hay una diferencia entre las probabilidades y las probabilidades de registro. Si la probabilidad de un evento es 0.36787944117, que resulta ser1/e, entonces la probabilidad de registro es -1.

Por lo tanto, si se le dan un montón de probabilidades de registro no normalizadas y desea recuperar las probabilidades originales, primero debe tomar el exponente de todos sus números, lo que le brinda probabilidades no normalizadas. A continuación, los normaliza como de costumbre. Matemáticamente, esto es

pj=ezjiezi

dónde pj es la probabilidad de jth clase y zi son las entradas al clasificador softmax.

La pregunta obvia es por qué molestarse en hacer exponentes. ¿Por qué no usar

pj=zjizi

¿en lugar?

Una razón para esto es porque el softmax juega muy bien con la pérdida de entropía cruzada, que es Eq[logp], dónde qes la verdadera distribución (las etiquetas). Intuitivamente, el registro se cancela con el exponente, lo cual es muy útil para nosotros.

Resulta que si tomas el gradiente de la pérdida de entropía cruzada con respecto a las entradas al clasificador z, usted obtiene

p1j

cuando la etiqueta de verdad fundamental está en clase j y 1jes el correspondiente vector de un solo calor. Esta es una expresión muy agradable y lleva a una fácil interpretación y optimización.

Por otro lado, si intenta utilizar probabilidades no normalizadas en lugar de probabilidades de registro no normalizadas, terminará siendo el gradiente

1izi1jT1z

Esta expresión es mucho menos agradable en términos de interpretabilidad y también puede ver posibles problemas numéricos cuando z está cerca de 0.

Otra razón para usar las probabilidades de registro puede verse en la regresión logística, que es simplemente un caso especial de clasificación softmax. La forma de la función sigmoidea funciona bien porque, intuitivamente, a medida que se mueve a través del espacio de características, la probabilidad de clases no varía linealmente con las entradas. La curva aguda en la función sigmoidea, que enfatiza el límite agudo entre dos clases, es realmente el resultado del término exponencial que estamos aplicando a las entradas de softmax.

shimao
fuente
¿Dónde está el registro en la expresión de probabilidades de registro no normalizadas?
Abhishek Bhatia
1
El registro proviene del hecho de que logpjzj. El logaritmo de las probabilidades es la probabilidad logarítmica. Como en mi publicación, iba en la dirección opuesta: registro de probabilidades a probabilidades, usé exp en lugar de log.
shimao