Entonces, recientemente hay un documento de Normalización de capa . También hay una implementación en Keras.
Pero recuerdo que hay documentos titulados Recurrent Batch Normalization (Cooijmans, 2016) y Batch Normalized Recurrent Neural Networks (Laurent, 2015). ¿Cuál es la diferencia entre esos tres?
Existe esta sección de Trabajo relacionado que no entiendo:
La normalización por lotes se ha extendido previamente a redes neuronales recurrentes [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. El trabajo anterior [Cooijmans et al., 2016] sugiere que el mejor rendimiento de la normalización recurrente de lotes se obtiene al mantener estadísticas de normalización independientes para cada paso de tiempo. Los autores muestran que inicializar el parámetro de ganancia en la capa de normalización de lote recurrente a 0.1 hace una diferencia significativa en el rendimiento final del modelo. Nuestro trabajo también está relacionado con la normalización del peso [Salimans y Kingma, 2016]. En la normalización del peso, en lugar de la varianza, la norma L2 de los pesos entrantes se utiliza para normalizar las entradas sumadas a una neurona.. La aplicación de la normalización de peso o la normalización por lotes utilizando las estadísticas esperadas es equivalente a tener una parametrización diferente de la red neuronal de alimentación original. La re-parametrización en la red ReLU se estudió en el SGD Pathnormalized [Neyshabur et al., 2015]. Nuestro método de normalización de capa propuesto, sin embargo, no es una re-parametrización de la red neuronal original. El modelo de capa normalizada, por lo tanto, tiene diferentes propiedades de invariancia que los otros métodos , que estudiaremos en la siguiente sección