La normalización por lotes se describe en este documento como una normalización de la entrada a una función de activación con variables de escala y desplazamiento y . Este artículo describe principalmente el uso de la función de activación sigmoidea, que tiene sentido. Sin embargo, me parece que alimentar una entrada de la distribución normalizada producida por la normalización por lotes en una función de activación ReLU de es arriesgado si no aprende a cambiar la mayoría de las entradas más allá de 0, de modo que ReLU no está perdiendo información de entrada. Es decir, si la entrada a ReLU se normalizara de manera estándar, perderíamos mucha de nuestra información por debajo de 0. ¿Hay alguna garantía o inicialización deeso garantizará que no perdamos esta información? ¿Me estoy perdiendo algo sobre cómo funciona la operación de BN y ReLU?