Cross-Entropy o Log Likelihood en la capa de salida

31

Leí esta página: http://neuralnetworksanddeeplearning.com/chap3.html

y dijo que la capa de salida sigmoidea con entropía cruzada es bastante similar a la capa de salida softmax con log-verosimilitud.

¿Qué sucede si uso sigmoide con log-verosimilitud o softmax con entropía cruzada en la capa de salida? ¿está bien? porque veo que solo hay poca diferencia en la ecuación entre entropía cruzada (ecuación 57):

C=1nx(ylna+(1y)ln(1a))

y probabilidad de registro (ecuación 80):

C=1nx(lnayL)
malioboro
fuente

Respuestas:

51

La probabilidad logarítmica negativa (ecuación 80) también se conoce como entropía cruzada multiclase (ref: Reconocimiento de patrones y Aprendizaje automático Sección 4.3.4), ya que en realidad son dos interpretaciones diferentes de la misma fórmula.

eq.57 es la probabilidad logarítmica negativa de la distribución de Bernoulli, mientras que eq.80 es la probabilidad logarítmica negativa de la distribución multinomial con una observación (una versión multiclase de Bernoulli).

Para problemas de clasificación binaria, la función softmax genera dos valores (entre 0 y 1 y suma a 1) para dar la predicción de cada clase. Mientras que la función sigmoide emite un valor (entre 0 y 1) para dar la predicción de una clase (entonces la otra clase es 1-p).

Por lo tanto, la ecuación 80 no se puede aplicar directamente a la salida sigmoidea, aunque es esencialmente la misma pérdida que la ecuación 57.

También vea esta respuesta .


A continuación se muestra una ilustración simple de la conexión entre (sigmoide + entropía cruzada binaria) y (softmax + entropía cruzada multiclase) para problemas de clasificación binaria.

Digamos que tomamos como el punto de división de las dos categorías, para la salida sigmoidea que sigue,0.5

σ(wx+b)=0.5
wx+b=0
que es el límite de decisión en el espacio de características.

Para la salida de softmax, sigue por lo que sigue siendo el mismo modelo, aunque hay el doble de parámetros.

ew1x+b1ew1x+b1+ew2x+b2=0.5
ew1x+b1=ew2x+b2
w1x+b1=w2x+b2
(w1w2)x+(b1b2)=0

Los siguientes muestran los límites de decisión obtenidos usando estos dos métodos, que son casi idénticos.

dontloo
fuente
¿A qué ecuaciones te refieres? En el libro, las ecuaciones están numeradas de manera diferente. ¿Quizás es una edición específica del libro? ¿Puedes aclarar esto? Estoy mirando el libro en users.isr.ist.utl.pt/~wurmd/Livros/school/… , página 209 (sección 4.3.4).
nbro
@nbro ah, perdón por la confusión, me refería a las ecuaciones en la página vinculada que figura en la pregunta.
dontloo