¿Qué tan flexible es el vínculo entre la función objetivo y la función de activación de la capa de salida?

Parece estándar en muchos paquetes de redes neuronales emparejar la función objetivo para minimizarla con la función de activación en la capa de salida.

Por ejemplo, para una capa de salida lineal utilizada para la regresión, es estándar (y a menudo la única opción) tener una función objetivo de error al cuadrado. Otro emparejamiento habitual es la salida logística y la pérdida de registro (o entropía cruzada). Y otro más es softmax y pérdida múltiple de registros.

Usando la notación, para el valor de preactivación (suma de pesos por activaciones de la capa anterior), para la activación, para la verdad básica utilizada para el entrenamiento, para el índice de neurona de salida. $z$ $a$ $y$ $i$

Activación lineal va con error al cuadrado $a_i=z_i$ $\frac{1}{2} \sum\limits_{\forall i} (y_i-a_i)^2$
Activación sigmoidea va con logloss / objetivo de entropía cruzada $a_i = \frac{1}{1+e^{-z_i}}$ $-\sum\limits_{\forall i} (y_i*log(a_i) + (1-y_i)*log(1-a_i))$
Softmax activación $a_i = \frac{e^{z_i}}{\sum_{\forall j} e^{z_j}}$ $-\sum\limits_{\forall i} (y_i*log(a_i))$

Esos son los que conozco, y espero que haya muchos de los que aún no he oído hablar.

$y$

Sin embargo, no parece tan malo intentar la salida sigmoidea con un objetivo de error al cuadrado. Debe ser estable y converger al menos.

$\frac{\delta E}{\delta z}$ $E$ tanh

¿Hay alguna situación al diseñar la arquitectura de una red neuronal, en la que usted debería o debería usar emparejamientos "no estándar" de activación de salida y funciones objetivo?

neural-network gradient-descent Neil Slater
fuente

¿Qué tan flexible es el vínculo entre la función objetivo y la función de activación de la capa de salida?

Respuestas: