He estado usando theano para experimentar con LSTM y me preguntaba qué métodos de optimización (SGD, Adagrad, Adadelta, RMSprop, Adam, etc.) funcionan mejor para LSTM. ¿Hay trabajos de investigación sobre este tema? Además, ¿la respuesta depende del tipo de aplicación para la que estoy usando el...