En la mayoría de los códigos de Tensorflow, he visto que Adam Optimizer se usa con una tasa de aprendizaje constante de 1e-4(es decir, 0,0001). El código generalmente tiene el siguiente aspecto: ...build the model... # Add the optimizer train_op =
En la mayoría de los códigos de Tensorflow, he visto que Adam Optimizer se usa con una tasa de aprendizaje constante de 1e-4(es decir, 0,0001). El código generalmente tiene el siguiente aspecto: ...build the model... # Add the optimizer train_op =
Estoy familiarizado con los algoritmos básicos de descenso de gradiente para entrenar redes neuronales. He leído el documento que propone a Adam: ADAM: UN MÉTODO PARA LA OPTIMIZACIÓN ESTOCÁSTICA . Si bien definitivamente tengo algunas ideas (al menos), el documento parece tener un nivel demasiado...
Estaba leyendo sobre el optimizador Adam para Deep Learning y encontré la siguiente oración en el nuevo libro Deep Learning de Bengio, Goodfellow y Courville: En general, se considera que Adam es bastante robusto para la elección de hiperparámetros, aunque a veces la tasa de aprendizaje debe...
Estoy entrenando una red neuronal usando i) SGD y ii) Adam Optimizer. Cuando uso SGD normal, obtengo una curva de pérdida de entrenamiento suave versus iteración como se ve a continuación (la roja). Sin embargo, cuando utilicé el Adam Optimizer, la curva de pérdida de entrenamiento tiene algunos...
Estaba leyendo sobre el optimizador Adam para Deep Learning y encontré la siguiente oración en el nuevo libro Deep Learning de Begnio, Goodfellow y Courtville: Adam incluye correcciones de sesgo a las estimaciones de los momentos de primer orden (el término de momento) y los momentos de segundo...
Estoy realizando experimentos en el conjunto de validación EMNIST usando redes con RMSProp, Adam y SGD. Estoy logrando un 87% de precisión con SGD (tasa de aprendizaje de 0.1) y abandono (0.1 problema de abandono), así como la regularización L2 (penalización 1e-05). Al probar la misma configuración...