Aquí la respuesta se refiere a gradientes de desaparición y explosión que han estado en sigmoid
funciones de activación similares, pero supongo que Relu
tiene una desventaja y es su valor esperado. no hay limitación para la salida de Relu
y, por lo tanto, su valor esperado no es cero. Recuerdo el tiempo antes de que la popularidad de Relu
eso tanh
fuera la más popular entre los expertos en aprendizaje automático en lugar de sigmoid
. La razón fue que el valor esperado de la tanh
era igual a cero y ayudó a aprender en capas más profundas a ser más rápido en una red neuronal. Relu
no tiene esta característica, pero por qué funciona tan bien si dejamos de lado su ventaja derivada. Además, supongo que la derivada también puede verse afectada. Porque las activaciones (salida deRelu
) están involucrados para calcular las reglas de actualización.
fuente
CNN
normalización típica la salida de larelu
no es común? Al menos nunca he visto eso.Respuestas:
La mayor ventaja de ReLu es la no saturación de su gradiente, que acelera en gran medida la convergencia del descenso de gradiente estocástico en comparación con las funciones sigmoideas / tanh ( documento de Krizhevsky et al).
Pero no es la única ventaja. Aquí hay una discusión sobre los efectos de dispersión de las activaciones de ReLu y la regularización inducida. Otra buena propiedad es que, en comparación con las neuronas tanh / sigmoideas que implican operaciones costosas (exponenciales, etc.), la ReLU se puede implementar simplemente con un umbral de una matriz de activaciones en cero.
Pero no estoy convencido de que el gran éxito de las redes neuronales modernas se deba solo a ReLu . Las nuevas técnicas de inicialización, como la inicialización de Xavier, el abandono y (más tarde) batchnorm también jugaron un papel muy importante. Por ejemplo, el famoso AlexNet usaba ReLu y abandono.
Entonces, para responder a su pregunta: ReLu tiene propiedades muy bonitas, aunque no ideales . Pero realmente se demuestra cuando se combina con otras grandes técnicas, que por cierto resuelven el problema de centro distinto de cero que ha mencionado.
UPD: la salida ReLu no está centrada en cero y perjudica el rendimiento de NN. Pero este problema en particular puede abordarse mediante otras técnicas de regularización, por ejemplo, batchnorm, que normaliza la señal antes de la activación :
fuente