Estaba leyendo el documento ImageNet Classification with Deep Convolutional Neural Networks y en la sección 3, donde explicaron la arquitectura de su red neuronal convolucional, explicaron cómo preferían usar:
no linealidad no saturante
porque fue más rápido entrenar. En ese documento que parecen referirse a las no linealidades de saturación como las funciones más tradicionales usados en CNNs, el sigmoide y las funciones tangente hiperbólica (es decir, y como saturado).
¿Por qué se refieren a estas funciones como "saturadas" o "no saturadas"? ¿En qué sentido estas funciones son "saturantes" o "no saturantes"? ¿Qué significan esos términos en el contexto de las redes neuronales convolucionales? ¿Se usan en otras áreas del aprendizaje automático (y estadísticas)?
fuente
Respuestas:
Intuición
Una función de activación saturante exprime la entrada.
Definiciones
Estas definiciones no son específicas de las redes neuronales convolucionales.
Ejemplos
La función de activación de la Unidad lineal rectificada (ReLU), que se define como no es saturante porque :F( x ) = m a x ( 0 , x ) limz→ + ∞F( z) = + ∞
La función de activación sigmoidea, que se define como está saturando, porque aplasta los números reales para que oscilen entre :F( x ) = 11 + e- x [ 0 , 1 ]
La función de activación de tanh (tangente hiperbólica) se está saturando ya que aplasta los números reales para oscilar entre :[ - 1 , 1 ]
(las cifras son de CS231n , licencia MIT)
fuente
Las funciones de activación más comunes son LOG y TanH. Estas funciones tienen un rango compacto, lo que significa que comprimen la respuesta neuronal en un subconjunto acotado de los números reales. El LOG comprime las entradas a las salidas entre 0 y 1, el TAN H entre -1 y 1. Estas funciones muestran un comportamiento limitante en los límites.
En el borde, el gradiente de la salida con respecto a la entrada ∂yj / ∂xj es muy pequeño. Entonces Gradient es pequeño, por lo tanto, pequeños pasos para la convergencia, por lo tanto, más tiempo para converger.
fuente