Preguntas etiquetadas con conv-neural-network

8
¿Hay alguna forma de lidiar con el gradiente de desaparición para saturar las no linealidades que no involucran unidades de Normalización por lotes o ReLu?

Quería entrenar una red con no linealidades que sufren el desvanecimiento (o el problema de gradiente explosivo, aunque principalmente se desvanecen). Sé que la forma estándar (actual) es usar la normalización por lotes 1 [BN] 1 o simplemente abandonar la no linealidad y usar las unidades ReLu...