En el documento Normalización de lotes: aceleración de la capacitación en redes profundas mediante la reducción del cambio de covariable interno ( aquí ) Antes de explicar el proceso de normalización de lotes, el documento intenta explicar los problemas relacionados con (no entiendo cuál es el problema exacto que se aborda aquí) .
Extracto de la sección 2, párrafo 2:
Podríamos considerar las activaciones de blanqueamiento en cada paso del entrenamiento o en algún intervalo, ya sea modificando la red directamente o cambiando los parámetros del algoritmo de optimización para depender de los valores de activación de la red (Wiesler et al., 2014; Raiko et al., 2012 ; Povey et al., 2014; Desjardins & Kavukcuoglu). Sin embargo, si estas modificaciones se intercalan con los pasos de optimización, entonces el paso de descenso de gradiente puede intentar actualizar los parámetros de una manera que requiera que se actualice la normalización, lo que reduce el efecto del paso de gradiente. Por ejemplo, considere una capa con la entrada u que agrega el sesgo aprendido , y normaliza el resultado restando la media de la activación calculada sobre los datos de entrenamiento:donde es el conjunto de valores de sobre el conjunto de entrenamiento, y .
Si un paso de descenso de gradiente ignora la dependencia de E [x] en b, actualizará , donde ∆b ∝ - \ partial l / \ partial \ hat x . Entonces u + (b + ∆b) - E [u + (b + ∆b)] = u + b - E [u + b] \ tag 1 .
Por lo tanto, la combinación de la actualización a by el cambio posterior en la normalización no condujo a ningún cambio en la salida de la capa ni, en consecuencia, a la pérdida. A medida que el entrenamiento continúa, b crecerá indefinidamente mientras la pérdida permanece fija. Este problema puede empeorar si la normalización no solo se centra sino que también escala las activaciones.
Aquí está mi comprensión de la literatura:
Tenemos un lote de tamaño N (un lote de entrenamiento)
Deje que haya dos capas ocultas arbitrarias conectadas entre sí (L1 y L2) conectadas por los parámetros y
la salida que sale de L1 es x1
(aquí es donde comienza la literatura anterior. la dimensión de u es MxN) (M es el número de unidades en L2)
(dimensión b = dimensión x = dimensión u = MxN)
Ahora, antes de alimentar x en L2, lo centramos restando la media de de cada entrada en ( )
Calculamos la pérdida y retropropagamos el gradiente y actualizamos solo la capa esta capa para darle una prueba de cordura. Nuevo =
Lo ejecutamos nuevamente en el mismo lote con actualizado
repetir 3 y 4
(dimensión b, = dimensión x = dimensión u = MxN)
Ahora, antes de alimentar x en L2, lo centramos restando la media de de cada entrada en ( ). que es lo mismo que se calculó antes de actualizar b y, por lo tanto, la actualización b tuvo que afectar la capacitación
Mi pregunta es con esta parte del extracto:
"Si un paso de descenso de gradiente ignora la dependencia de E [x] en b, entonces actualizará , donde . Entonces ".
Por que es
" ". depende de lo que viene antes? ¿Cuál es el punto de ese bit? Tenga en cuenta también el uso de la palabra "Entonces" (en negrita) que implica que la declaración necesariamente extrae causalidad de lo que precede
fuente