Por definición, Relu es max(0,f(x))
. Luego de su gradiente se define como:
1 if x > 0 and 0 if x < 0
.
¿No significa esto que el gradiente siempre es 0 (desaparece) cuando x <0? Entonces, ¿por qué decimos que Relu no sufre el problema de la desaparición del gradiente?
fuente
Desaparecer significa que va hacia 0 pero nunca será realmente 0. Tener gradientes de 0 hace cálculos muy fáciles, tener gradientes cercanos a 0 significa que hay cambios, solo muy pequeños, lo que significa aprendizaje lento y problemas numéricos. 1 y 0 son dos de los números más fáciles de calcular en este tipo de problemas de optimización.
fuente