¿Qué tan flexible es el vínculo entre la función objetivo y la función de activación de la capa de salida?

10

Parece estándar en muchos paquetes de redes neuronales emparejar la función objetivo para minimizarla con la función de activación en la capa de salida.

Por ejemplo, para una capa de salida lineal utilizada para la regresión, es estándar (y a menudo la única opción) tener una función objetivo de error al cuadrado. Otro emparejamiento habitual es la salida logística y la pérdida de registro (o entropía cruzada). Y otro más es softmax y pérdida múltiple de registros.

Usando la notación, para el valor de preactivación (suma de pesos por activaciones de la capa anterior), a para la activación, y para la verdad básica utilizada para el entrenamiento, i para el índice de neurona de salida.zayi

  • Activación lineal va con error al cuadrado 1ai=zi12i(yiai)2

  • Activación sigmoidea va con logloss / objetivo de entropía cruzada-i(yilog(ai)+(1-yi)log(1-ai))ai=11+ezii(yilog(ai)+(1yi)log(1ai))

  • Softmax activación ai=ezijezji(yilog(ai))

Esos son los que conozco, y espero que haya muchos de los que aún no he oído hablar.

y

Sin embargo, no parece tan malo intentar la salida sigmoidea con un objetivo de error al cuadrado. Debe ser estable y converger al menos.

δEδzEtanh

¿Hay alguna situación al diseñar la arquitectura de una red neuronal, en la que usted debería o debería usar emparejamientos "no estándar" de activación de salida y funciones objetivo?

Neil Slater
fuente

Respuestas:

4

No es tanto qué función de activación que usa lo que determina qué función de pérdida debe usar, sino más bien cuál es la interpretación que tiene de la salida.

Si se supone que la salida es una probabilidad, entonces la pérdida de registro es el camino a seguir.

Si la salida es un valor genérico, entonces el error cuadrático medio es el camino predeterminado. Entonces, por ejemplo, si su salida era un píxel de escala de grises con escala de grises etiquetada con un número del 0 al 1, podría tener sentido usar una función de activación sigmoidea con una función objetivo de error cuadrático medio.

patapouf_ai
fuente