Sabía que Residual Network (ResNet) hizo popular la inicialización normal. En ResNet, se usa la inicialización normal de He , mientras que la primera capa usa la inicialización uniforme de He.
He revisado el papel de ResNet y el documento "Profundizando en los rectificadores" (papel de inicialización de He), pero no he encontrado ninguna mención sobre init normal vs init uniforme.
También:
La normalización por lotes nos permite utilizar tasas de aprendizaje mucho más altas y tener menos cuidado con la inicialización.
En el resumen del documento de Batch Normalization, se dice que Batch Normalization nos permite ser menos cuidadosos con la inicialización.
ResNet en sí todavía se preocupa por cuándo usar init normal frente a init uniforme (en lugar de simplemente ir con init uniforme).
Entonces:
- ¿Cuándo usar (Él o Glorot) la inicialización distribuida normalmente sobre la inicialización uniforme?
- ¿Cuáles son los efectos de inicialización distribuidos normalmente con Batch Normalization?
Notas a un lado:
- Rima usar init normal con Batch Normalization, pero no he encontrado ningún documento que respalde este hecho.
- Sabía que ResNet usa He init sobre Glorot init porque He init funciona mejor en una red profunda.
- He entendido acerca de Glorot init vs He init .
- Mi pregunta es sobre Normal vs Uniform init.
¡Tenga la amabilidad de leer los hiperparámetros en acción! Parte II - Inicializadores de peso
fuente