La normalización por lotes y ReLU son soluciones al problema del gradiente de fuga. Si estamos usando la normalización por lotes, ¿deberíamos usar sigmoides? ¿O hay características de ReLU que hacen que valga la pena incluso cuando se usa batchnorm?
Supongo que la normalización realizada en batchnorm enviará cero activaciones negativas. ¿Eso significa que batchnorm resuelve el problema de "ReLU muerto"?
Pero la naturaleza continua de tanh y logística sigue siendo atractiva. Si estoy usando batchnorm, ¿funcionará mejor que ReLU?
Estoy seguro de que la respuesta depende . Entonces, ¿qué ha funcionado en su experiencia y cuáles son las características más destacadas de su aplicación?
deep-learning
batch-normalization
genérico_usuario
fuente
fuente
Respuestas:
Verá, el concepto básico detrás de la normalización por lotes es que (extracto de un artículo de Medium):
Lee el artículo aquí.
fuente
loco respondió correctamente a su pregunta sobre la normalización de lotes y permítame responder a su segunda parte que las funciones continuas pueden parecer atractivas pero relu es mejor que todas ellas y esta afirmación no es de mi lado MR. Hinton lo citó "éramos personas tontas que usaban sigmoide como función de activación y tardó 30 años en darse cuenta de que sin comprender su forma nunca dejará que su neurona entre en estado de aprendizaje, siempre está saturada, así que es su derivada y se llamó a sí mismo y a todos los demás atónitos ". Así que elegir una función de activación simplemente porque es continua y no mira cómo va a afectar su neurona '
Nota: Si está estudiando redes neuronales, le aconsejaría que piense que las redes neuronales son funciones compuestas grandes y profundas, por lo que para comprender qué funciona y por qué funciona, necesita comprender cómo una red neuronal crea una variedad de datos en alguna dimensión superior "que representa "esos datos en los que la bondad de la variedad depende de su elección de funciones y de cómo una función transforma la salida de otras funciones cuando se le da como entrada.
fuente