¿Por qué no usar siempre la técnica de optimización de ADAM?

12

Parece el optimizador Adaptive Moment Estimation (Adam) casi siempre funciona mejor (alcanza un mínimo global de manera más rápida y confiable) al minimizar la función de costo en el entrenamiento de redes neuronales.

¿Por qué no usar siempre a Adán? ¿Por qué molestarse incluso en usar RMSProp u optimizadores de impulso?

PyRsquared
fuente
1
No creo que exista una forma estricta y formal de apoyar ninguna de las declaraciones. Todo es puramente empírico, ya que la superficie de error es desconocida. Como regla general, y exclusivamente por m experiencia, ADAM funciona bien donde otros fallan (segmentación de instancias), aunque no sin inconvenientes (la convergencia no es monótona)
Alex
2
Adam es más rápido para converger. SGD es más lento pero generaliza mejor. Entonces, al final, todo depende de sus circunstancias particulares.
agcala

Respuestas:

4

También debería echar un vistazo a esta publicación que compara diferentes optimizadores de descenso de gradiente. Como puede ver a continuación, Adam claramente no es el mejor optimizador para algunas tareas, ya que muchas convergen mejor.


fuente
Solo para el registro: en el artículo vinculado mencionan algunos de los defectos de ADAM y presentan AMSGrad como una solución. Sin embargo, concluyen que si AMSGrad supera a ADAM en las prácticas es (en el momento de la escritura) no concluyente.
Lus