¿La normalización por lotes significa que los sigmoides funcionan mejor que los ReLU?

9

La normalización por lotes y ReLU son soluciones al problema del gradiente de fuga. Si estamos usando la normalización por lotes, ¿deberíamos usar sigmoides? ¿O hay características de ReLU que hacen que valga la pena incluso cuando se usa batchnorm?

Supongo que la normalización realizada en batchnorm enviará cero activaciones negativas. ¿Eso significa que batchnorm resuelve el problema de "ReLU muerto"?

Pero la naturaleza continua de tanh y logística sigue siendo atractiva. Si estoy usando batchnorm, ¿funcionará mejor que ReLU?

Estoy seguro de que la respuesta depende . Entonces, ¿qué ha funcionado en su experiencia y cuáles son las características más destacadas de su aplicación?

genérico_usuario
fuente
Incluso si el documento sugiere usar BatchNorm antes de la activación, se ha encontrado en la práctica que se obtienen mejores soluciones si se aplica BN después. Si no paso por alto algo que debería significar, que en el último caso, BN no tiene ningún efecto en la activación. Pero, por supuesto, es una pregunta abierta, si BN funcionaría mejor cuando se aplica antes y con otra activación que no sea ReLU. En mi opinión, no. Porque ReLU todavía tiene otras ventajas, como una derivación más simple. Pero también tengo curiosidad. Tal vez alguien hizo experiencias en este campo.
oezguensi

Respuestas:

1

Verá, el concepto básico detrás de la normalización por lotes es que (extracto de un artículo de Medium):

Normalizamos nuestra capa de entrada ajustando y escalando las activaciones. Por ejemplo, cuando tenemos características de 0 a 1 y algunas de 1 a 1000, debemos normalizarlas para acelerar el aprendizaje. Si la capa de entrada se beneficia de ella, ¿por qué no hacer lo mismo también para los valores en las capas ocultas, que cambian todo el tiempo y obtener una mejora de 10 veces o más en la velocidad de entrenamiento?

Lee el artículo aquí.

FrunaC1/ /(1+1/ /mi)

Loco
fuente
0

loco respondió correctamente a su pregunta sobre la normalización de lotes y permítame responder a su segunda parte que las funciones continuas pueden parecer atractivas pero relu es mejor que todas ellas y esta afirmación no es de mi lado MR. Hinton lo citó "éramos personas tontas que usaban sigmoide como función de activación y tardó 30 años en darse cuenta de que sin comprender su forma nunca dejará que su neurona entre en estado de aprendizaje, siempre está saturada, así que es su derivada y se llamó a sí mismo y a todos los demás atónitos ". Así que elegir una función de activación simplemente porque es continua y no mira cómo va a afectar su neurona '

Nota: Si está estudiando redes neuronales, le aconsejaría que piense que las redes neuronales son funciones compuestas grandes y profundas, por lo que para comprender qué funciona y por qué funciona, necesita comprender cómo una red neuronal crea una variedad de datos en alguna dimensión superior "que representa "esos datos en los que la bondad de la variedad depende de su elección de funciones y de cómo una función transforma la salida de otras funciones cuando se le da como entrada.

khwaja wisal
fuente