¿Por qué las funciones de activación de unidades lineales rectificadas (ReLU) se consideran no lineales?
Son lineales cuando la entrada es positiva y, según tengo entendido, para desbloquear el poder representativo de las redes profundas, las activaciones no lineales son imprescindibles, de lo contrario, toda la red podría estar representada por una sola capa.
Respuestas:
Las RELU son no linealidades. Para ayudar a su intuición, considere una red muy simple con 1 unidad de entrada , 2 unidades ocultas y 1 unidad de salida . Con esta red simple podríamos implementar una función de valor absoluto,y i zX yyo z
o algo que se parece a la función sigmoidea comúnmente utilizada,
Combinando estos en redes más grandes / usando más unidades ocultas, podemos aproximar funciones arbitrarias.
fuente
reLu(reLu(....))
será lineal siempre? Además, aquí cambiasx
ax+1
, que podría pensarse comoZ=Wx+b
donde W&b cambia para dar diferentes variantes de este tipox
yx+1
?