Estoy entrenando un modelo (red neuronal recurrente) para clasificar 4 tipos de secuencias. Mientras corro mi entrenamiento, veo que la pérdida de entrenamiento disminuye hasta el punto en que clasifico correctamente más del 90% de las muestras en mis lotes de entrenamiento. Sin embargo, un par de épocas después, noto que la pérdida de entrenamiento aumenta y que mi precisión disminuye. Esto me parece extraño ya que esperaría que en el conjunto de entrenamiento el rendimiento mejore con el tiempo y no se deteriore. Estoy usando la pérdida de entropía cruzada y mi tasa de aprendizaje es 0.0002.
Actualización: Resultó que la tasa de aprendizaje era demasiado alta. Con una tasa de aprendizaje lo suficientemente baja, no observo este comportamiento. Sin embargo, todavía encuentro esto peculiar. Cualquier buena explicación es bienvenida por qué sucede esto
Porque como la tasa de aprendizaje es demasiado grande, divergerá y no podrá encontrar el mínimo de la función de pérdida. Usar un programador para disminuir la tasa de aprendizaje después de ciertas épocas ayudará a resolver el problema
fuente
Con tasas de aprendizaje más altas, se está moviendo demasiado en la dirección opuesta al gradiente y puede alejarse de los mínimos locales, lo que puede aumentar la pérdida. La programación de la tasa de aprendizaje y el recorte de gradiente pueden ayudar.
fuente