Elijo la función de activación para la capa de salida en función de la salida que necesito y las propiedades de la función de activación que conozco. Por ejemplo, elijo la función sigmoide cuando trato con probabilidades, una ReLU cuando trato con valores positivos y una función lineal cuando trato con valores generales.
En capas ocultas, uso un ReLU con fugas para evitar las neuronas muertas en lugar del ReLU y el tanh en lugar del sigmoide. Por supuesto, no uso una función lineal en unidades ocultas.
Sin embargo, la elección de ellos en la capa oculta se debe principalmente a prueba y error.
¿Hay alguna regla general de qué función de activación es probable que funcione bien en algunas situaciones? Tome el término situaciones lo más general posible: podría referirse a la profundidad de la capa, a la profundidad del NN, al número de neuronas para esa capa, al optimizador que elegimos, al número de características de entrada de esa capa, a la aplicación de este NN, etc.
En su respuesta , cantordust se refiere a otras funciones de activación que no mencioné, como ELU y SELU. Esta información es más que bienvenida. Sin embargo, cuantas más funciones de activación descubro, más me confundo en la elección de la función para usar en capas ocultas. Y no creo que lanzar una moneda sea una buena forma de elegir una función de activación.
fuente
No sé en qué tipo de redes neuronales estás trabajando. Pero también se deben considerar las funciones de activación de tanh cuando se trata de redes neuronales recurrentes. El motivo es evitar la explosión de problemas de gradiente ya que la función tanh está limitada a la diferencia de la función RELU, por ejemplo.
fuente