Aquí la respuesta se refiere a gradientes de desaparición y explosión que han estado en sigmoidfunciones de activación similares, pero supongo que Relutiene una desventaja y es su valor esperado. no hay limitación para la salida de Reluy, por lo tanto, su valor esperado no es cero. Recuerdo el tiempo antes de que la popularidad de Relueso tanhfuera la más popular entre los expertos en aprendizaje automático en lugar de sigmoid. La razón fue que el valor esperado de la tanhera igual a cero y ayudó a aprender en capas más profundas a ser más rápido en una red neuronal. Reluno tiene esta característica, pero por qué funciona tan bien si dejamos de lado su ventaja derivada. Además, supongo que la derivada también puede verse afectada. Porque las activaciones (salida deRelu) están involucrados para calcular las reglas de actualización.
fuente

CNNnormalización típica la salida de lareluno es común? Al menos nunca he visto eso.