¿Por qué la norma de lote tiene escala y cambio aprendibles?

Según tengo entendido, la norma de lote normaliza todas las características de entrada a una capa a una unidad de distribución normal, . La media y la varianza se estiman midiendo sus valores para el mini lote actual. $\mathcal{N}(\mu=0,\sigma=1)$ $\mu, \sigma^2$

Después de la normalización, las entradas se escalan y cambian por valores escalares:

{\hat{X}}_{yo}^{'} = γ {\hat{X}}_{yo} + β

$\hat{x}_i' = \gamma \hat{x}_i + \beta$

(Corrígeme si me equivoco aquí, aquí es donde empiezo a estar un poco inseguro).

$\gamma$ y son valores escalares y hay un par de cada uno para cada capa normalizada por lotes. Se aprenden junto con los pesos utilizando backprop y SGD. $\beta$

Mi pregunta es, ¿no son redundantes estos parámetros porque las entradas pueden ser escaladas y desplazadas de cualquier manera por los pesos en la capa misma? En otras palabras, si

y = W {\hat{X}}^{'} + si

$y = W \hat{x}' + b$

{\hat{X}}^{'} = γ \hat{X} + β

$\hat{x}' = \gamma \hat{x} + \beta$

entonces

y = W^{'} \hat{X} + {si}^{'}

$y = W' \hat{x} + b'$

donde y . $W' = W\gamma$ $b'=W\beta + b$

Entonces, ¿cuál es el punto de agregarlos de la red que ya es capaz de aprender la escala y el cambio? ¿O estoy entendiendo totalmente mal las cosas?

batch-normalization Timmmm
fuente

Respuestas:

Hay una respuesta perfecta en el Libro de aprendizaje profundo, Sección 8.7.1 :

La normalización de la media y la desviación estándar de una unidad puede reducir el poder expresivo de la red neuronal que contiene esa unidad. Para mantener el poder expresivo de la red, es común reemplazar el lote de activaciones de unidades ocultas H con γH + β en lugar de simplemente el H. normalizado. Las variables γ y β son parámetros aprendidos que permiten que la nueva variable tenga cualquier media y Desviación Estándar. A primera vista, esto puede parecer inútil: ¿por qué establecemos la media en 0 y luego introducimos un parámetro que permite que se vuelva a establecer en cualquier valor arbitrario β?

La respuesta es que la nueva parametrización puede representar la misma familia de funciones de la entrada que la antigua parametrización, pero la nueva parametrización tiene diferentes dinámicas de aprendizaje. En la antigua parametrización, la media de H estaba determinada por una interacción complicada entre los parámetros en las capas debajo de H. En la nueva parametrización, la media de γH + β está determinada únicamente por β. La nueva parametrización es mucho más fácil de aprender con el descenso de gradiente.

Timmmm
fuente