Preguntas etiquetadas con batch-normalization

21
¿Cómo y por qué Batch Normalization usa promedios móviles para rastrear la precisión del modelo mientras se entrena?

Estaba leyendo el documento de normalización de lotes (BN) (1) y no entendía la necesidad de usar promedios móviles para rastrear la precisión del modelo e incluso si aceptaba que era lo correcto, no entiendo qué están haciendo exactamente. Según tengo entendido (que puede estar equivocado), el...

8
¿Hay alguna forma de lidiar con el gradiente de desaparición para saturar las no linealidades que no involucran unidades de Normalización por lotes o ReLu?

Quería entrenar una red con no linealidades que sufren el desvanecimiento (o el problema de gradiente explosivo, aunque principalmente se desvanecen). Sé que la forma estándar (actual) es usar la normalización por lotes 1 [BN] 1 o simplemente abandonar la no linealidad y usar las unidades ReLu...