¿Suma o promedio de gradientes en (mini) gradiente de lote decente?

15

Cuando implementé el mini lote de gradiente decente, solo promedié los gradientes de todos los ejemplos en el lote de capacitación. Sin embargo, me di cuenta de que ahora la tasa de aprendizaje óptima es mucho más alta que para el gradiente en línea decente. Mi intuición es que esto se debe a que el gradiente promedio es menos ruidoso y, por lo tanto, podría seguirse más rápido. Entonces, tal vez también tenga sentido solo resumir los gradientes de un lote. Los valores pueden ser positivos y negativos de todos modos.

Sé que es solo un factor constante que se puede equilibrar usando la tasa de aprendizaje. Pero me pregunto cuál es la definición que los científicos han acordado para poder reproducir resultados de documentos de redes neuronales.

¿Normalmente se dividen los gradientes sumados de un lote por el tamaño del lote?

danijar
fuente

Respuestas:

21

Promedio.

Ejemplos: Notas al Curso de aprendizaje automático de Andrew Ng sobre Coursera compilado por Alex Holehouse.

Sumando los gradientes debido a muestras individuales, obtienes un gradiente mucho más suave. Cuanto mayor sea el lote, más suave será el gradiente resultante utilizado para actualizar el peso.

Dividir la suma por el tamaño del lote y tomar el gradiente promedio tiene el efecto de:

  1. La magnitud del peso no crece fuera de proporción. Agregar la regularización L2 a la actualización de peso penaliza los valores de peso grandes. Esto a menudo conduce a un mejor rendimiento de generalización. Tomando el promedio, especialmente si los gradientes apuntan en la misma dirección, evite que los pesos se vuelvan demasiado grandes.
  2. La magnitud del gradiente es independiente del tamaño del lote. Esto permite la comparación de pesos de otros experimentos utilizando diferentes tamaños de lote.
  3. Contrarrestar el efecto del tamaño del lote con la tasa de aprendizaje puede ser numéricamente equivalente, pero termina con una tasa de aprendizaje que es específica de la implementación. Hace que sea difícil comunicar sus resultados y la configuración experimental si las personas no pueden relacionarse con la escala de parámetros que está utilizando y tendrán problemas para reproducir su experimento.

El promedio permite una comparabilidad más clara y mantiene las magnitudes de gradiente independientes del tamaño del lote. La elección de un tamaño de lote a veces está limitada por los recursos computacionales que tiene y desea mitigar el efecto de esto al evaluar su modelo.

ypx
fuente
El enlace ahora está muerto
cdeterman
1
enlace actualizado, ya no se puede vincular a las diapositivas originales, así que opté por notas bien compiladas por Alex Holehouse .
ypx
Este tutorial parece ir para la suma en lugar del promedio .. deeplearning.net/tutorial/gettingstarted.html#regularization
AD