¿Cuáles son los beneficios de usar ReLU sobre softplus como funciones de activación?

21

A menudo se menciona que las unidades lineales rectificadas (ReLU) han reemplazado a las unidades softplus porque son lineales y más rápidas de calcular.

¿Softplus todavía tiene la ventaja de inducir la dispersión o está restringido a la ReLU?

La razón por la que pregunto es porque me pregunto sobre las consecuencias negativas de la pendiente cero de la ReLU. ¿Esta propiedad no "atrapa" a las unidades en cero donde podría ser beneficioso darles la posibilidad de reactivación?

brockl33
fuente
¿Alguna vez descubriste la respuesta a esto?
Charlie Parker

Respuestas:

4

Encontré una respuesta a su pregunta en la Sección 6.3.3 del libro Deep Learning . (Goodfellow et. Al, 2016):

El uso de softplus generalmente se desaconseja. ... uno podría esperar que tenga ventaja sobre el rectificador debido a que es diferenciable en todas partes o debido a que se satura menos por completo, pero empíricamente no lo hace.

Como referencia para respaldar esta afirmación, citan el documento Deep Sparse Rectifier Neural Networks (Glorot et. Al, 2011).

Alexander Shchur
fuente
1
Creo que necesitamos más aclaraciones sobre "pero empíricamente no es así".
nbro
2

De hecho, las ReLU pueden apagarse permanentemente, particularmente con altas tasas de aprendizaje. Esta es una motivación detrás de las activaciones de ReLU y ELU con fugas, las cuales tienen un gradiente distinto de cero en casi todas partes.

Leaky ReLU es una función lineal por partes, al igual que ReLU, tan rápida de calcular. ELU tiene la ventaja sobre softmax y ReLU de que su producción media está más cerca de cero, lo que mejora el aprendizaje.

Hugh Perkins
fuente
¿Qué significa "casi en todas partes"?
nbro
1
"casi en todas partes" es un término técnico que significa algo así como "excepto en algunos puntos infinitamente pequeños". Por ejemplo, ReLU con fugas no tiene un gradiente definido en x = 0.
Hugh Perkins