Parece el optimizador Adaptive Moment Estimation (Adam) casi siempre funciona mejor (alcanza un mínimo global de manera más rápida y confiable) al minimizar la función de costo en el entrenamiento de redes neuronales.
¿Por qué no usar siempre a Adán? ¿Por qué molestarse incluso en usar RMSProp u optimizadores de impulso?
neural-network
optimization
PyRsquared
fuente
fuente
Respuestas:
Aquí hay una publicación de blog que revisa un artículo que dice que SGD es un mejor adaptador generalizado que ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/
A menudo hay un valor al usar más de un método (un conjunto), porque cada método tiene una debilidad.
fuente
También debería echar un vistazo a esta publicación que compara diferentes optimizadores de descenso de gradiente. Como puede ver a continuación, Adam claramente no es el mejor optimizador para algunas tareas, ya que muchas convergen mejor.
fuente