A menudo se menciona que las unidades lineales rectificadas (ReLU) han reemplazado a las unidades softplus porque son lineales y más rápidas de calcular.
¿Softplus todavía tiene la ventaja de inducir la dispersión o está restringido a la ReLU?
La razón por la que pregunto es porque me pregunto sobre las consecuencias negativas de la pendiente cero de la ReLU. ¿Esta propiedad no "atrapa" a las unidades en cero donde podría ser beneficioso darles la posibilidad de reactivación?
machine-learning
neural-networks
brockl33
fuente
fuente
Respuestas:
Encontré una respuesta a su pregunta en la Sección 6.3.3 del libro Deep Learning . (Goodfellow et. Al, 2016):
Como referencia para respaldar esta afirmación, citan el documento Deep Sparse Rectifier Neural Networks (Glorot et. Al, 2011).
fuente
De hecho, las ReLU pueden apagarse permanentemente, particularmente con altas tasas de aprendizaje. Esta es una motivación detrás de las activaciones de ReLU y ELU con fugas, las cuales tienen un gradiente distinto de cero en casi todas partes.
Leaky ReLU es una función lineal por partes, al igual que ReLU, tan rápida de calcular. ELU tiene la ventaja sobre softmax y ReLU de que su producción media está más cerca de cero, lo que mejora el aprendizaje.
fuente