Encontré la unidad lineal rectificada (ReLU) elogiada en varios lugares como una solución al problema del gradiente de fuga para las redes neuronales. Es decir, uno usa max (0, x) como función de activación. Cuando la activación es positiva, es obvio que es mejor que, digamos, la función de...