¿Por qué las unidades lineales rectificadas se consideran no lineales?

¿Por qué las funciones de activación de unidades lineales rectificadas (ReLU) se consideran no lineales?

f (x) = max (0, x)

$f(x) = \max(0,x)$

Son lineales cuando la entrada es positiva y, según tengo entendido, para desbloquear el poder representativo de las redes profundas, las activaciones no lineales son imprescindibles, de lo contrario, toda la red podría estar representada por una sola capa.

neural-networks deep-learning Aly
fuente

Hay una pregunta similar antes: stats.stackexchange.com/questions/275358/… aunque probablemente no sea un duplicado

Aksakal

Respuestas:

Las RELU son no linealidades. Para ayudar a su intuición, considere una red muy simple con 1 unidad de entrada , 2 unidades ocultas y 1 unidad de salida . Con esta red simple podríamos implementar una función de valor absoluto, $x$ $y_i$ $z$

z = max (0, x) + max (0, - x),

$z = \max(0, x) + \max(0, -x),$

o algo que se parece a la función sigmoidea comúnmente utilizada,

z = max (0, x + 1) - max (0, x - 1) .

$z = \max(0, x + 1) - \max(0, x - 1).$

Combinando estos en redes más grandes / usando más unidades ocultas, podemos aproximar funciones arbitrarias.

$\hskip2in$ Función de red RELU

Lucas
fuente

¿Se construirían estos tipos de ReLus hechos a mano a priori y codificados en capas? Si es así, ¿cómo podría saber que su red requería uno de estos ReLus especialmente diseñados en particular?

Monica Heddneck

@MonicaHeddneck Podría especificar sus propias no linealidades, sí. Lo que hace que una activación funcione mejor que otra es un tema de investigación constante. Por ejemplo, solíamos usar sigmoides, , pero luego, debido al problema del gradiente de desaparición, las ReLU se hicieron más populares. Por lo tanto, depende de usted usar diferentes funciones de activación de no linealidad.

σ (x) = \frac{1}{1 + e^{- x}}

$\sigma(x) = \frac{1}{1 + e^{-x}}$

Tarin Ziyaee

¿Cómo aproximarías con ReLU fuera de la muestra?

e^{x}

$e^x$

Aksakal

@Lucas, entonces, básicamente, si combinamos (+)> 1 ReLUs, podemos aproximar cualquier función, pero ¿si simplemente reLu(reLu(....))será lineal siempre? Además, aquí cambias xa x+1, que podría pensarse como Z=Wx+bdonde W&b cambia para dar diferentes variantes de este tipo xy x+1?

Anu