La literatura de aprendizaje profundo está llena de trucos inteligentes con el uso de tasas de aprendizaje no constantes en el descenso de gradiente. Cosas como la decadencia exponencial, RMSprop, Adagrad, etc. son fáciles de implementar y están disponibles en todos los paquetes de aprendizaje...