¿Cuál es la razón por la que el Adam Optimizer se considera robusto al valor de sus hiperparámetros?

24

Estaba leyendo sobre el optimizador Adam para Deep Learning y encontré la siguiente oración en el nuevo libro Deep Learning de Bengio, Goodfellow y Courville:

En general, se considera que Adam es bastante robusto para la elección de hiperparámetros, aunque a veces la tasa de aprendizaje debe cambiarse del valor predeterminado sugerido.

si esto es cierto, es un gran problema porque la búsqueda de hiperparámetros puede ser realmente importante (al menos en mi experiencia) en el rendimiento estadístico de un sistema de aprendizaje profundo. Por lo tanto, mi pregunta es, ¿por qué Adam Robust tiene parámetros tan importantes? ¿Especialmente y β 2 ?β1β2

He leído el artículo de Adam y no proporciona ninguna explicación de por qué funciona con esos parámetros o por qué es robusto. ¿Justifican eso en otra parte?

Además, mientras leo el artículo, parece que el número de hiperparámetros que probaron era muy pequeño, para solo 2 y para β 2 solo 3. ¿Cómo puede ser un estudio empírico exhaustivo si solo funciona en hiperparámetros 2x3? ?β1β2

Charlie Parker
fuente
1
Envíe un correo electrónico a los autores del libro que hicieron el reclamo. Pregúnteles en qué se basa el reclamo.
Mark L. Stone
1
@ MarkL.Stone solo dijo que lo dijo porque el resumen lo dijo. Apenas un argumento convincente. Tal vez la próxima vez envíe un correo electrónico a los autores del artículo real.
Charlie Parker
77
Y así, la autopromoción se convierte en realidad.
Mark L. Stone
@ MarkL.Stone en su defensa, podría haber estado demasiado ocupado para responder correctamente y solo contacté a 1 de los 3 autores. Tal vez podría contactar a los demás, pero no estoy seguro de si responderán dado (al menos) uno es profesor. Con el bombo publicitario en DL, apuesto a que recibe 300 correos electrónicos al día.
Charlie Parker
77
Ahora que el libro está fuera, los autores de Adam tienen confirmación de cuán grande es su algoritmo. Me recuerda al terremoto del '89 Bay Area. La estación de radio de noticias hizo un informe no confirmado de # de muertes en el colapso de la carretera, dijo que estaban buscando confirmación de la oficina del gobernador. Luego llamaron al gobernador por teléfono y le preguntaron si podía confirmar el número de muertes. Dijo que eso es lo que escuchó. La estación de radio luego informó que ahora tenían la confirmación del gobernador. Resulta que el gobernador quiso decir que lo escuchó, como resulta, en esa estación de radio. Entonces, confirmación circular.
Mark L. Stone

Respuestas:

7

En lo que respecta a la evidencia con respecto al reclamo, creo que la única evidencia que respalda el reclamo se puede encontrar en la figura 4 de su documento . Muestran los resultados finales en un rango de valores diferentes para , β 2 y α .β1β2α

Personalmente, no encuentro su argumento convincente, en particular porque no presentan resultados en una variedad de problemas. Dicho esto, voy a señalar que tengo ADAM utiliza para una variedad de problemas, y mi conclusión personal es que los valores por defecto de y beta 2 no parecen sorprendentemente fiable, a pesar de un acuerdo bien de toquetearβ1β2 α

Acantilado
fuente
5

β1β2

Esto está en gran contraste con el stock de descenso de gradiente estocástico de vainilla, donde:

  • las tasas de aprendizaje no son por parámetro, pero existe una tasa de aprendizaje global única que se aplica sin rodeos en todos los parámetros
    • (por cierto, esta es una razón por la cual los datos a menudo se blanquean, normalizan, antes de enviarse a las redes, para tratar de mantener los pesos ideales por parámetro similar-ish)
  • la tasa de aprendizaje proporcionada es la tasa de aprendizaje exacta utilizada y no se adapta con el tiempo

Adam no es el único optimizador con tasas de aprendizaje adaptativo. Como se afirma en el artículo de Adam, está muy relacionado con Adagrad y Rmsprop, que también son extremadamente insensibles a los hiperparámetros. Especialmente, Rmsprop funciona bastante bien.

Pero Adam es el mejor en general. Con muy pocas excepciones, Adam hará lo que quieras :)

Hay algunos casos bastante patológicos en los que Adam no funcionará, particularmente para algunas distribuciones no estacionarias. En estos casos, Rmsprop es una excelente opción de espera. Pero en términos generales, para la mayoría de los casos no patológicos, Adam funciona extremadamente bien.

Hugh Perkins
fuente
1
β1,β2
Sí, si quiere decir, '¿hay una oportunidad aquí para investigar más a fondo por qué?', Bueno ... tal vez.
Hugh Perkins
2
Esta no es una "pregunta más profunda". Este es uno de los puntos más importantes del artículo, ¿no? El punto es que hace las cosas "por sí mismo", pero luego están estos otros hiperparámetros que parecen ser mágicamente robustos. Ese es el problema que tengo. Me parece que está relacionado con el núcleo del documento a menos que haya entendido mal el punto de Adán.
Charlie Parker
"Hay algunos casos bastante patológicos en los que Adam no funcionará, particularmente para algunas distribuciones muy no estacionarias". <- alguna referencia aquí?
mimoralea
0

Mirando las fórmulas de ADAM, parece un poco extraño que después de una gran cantidad de iteraciones por lotes (digamos ~ 400k), la magnitud del gradiente original basado en el error en sí mismo no juegue ningún papel real en el paso dado que parece aspirar a el parámetro de configuración de la tasa de aprendizaje en el signo relevante.
Quizás ADAM controla la adaptación del peso mejor que el SGD simple durante las primeras iteraciones / épocas, pero en el futuro la actualización parece estar reducida a algo algo ingenuo (?) ¿Alguien puede dar alguna intuición sobre por qué eso realmente se desea y / o tiende a funcionar bien?

Danny Rosen
fuente
En realidad, parece que la magnitud del gradiente basada en el error en sí misma no juega un papel real, incluso desde el comienzo. La pregunta es por qué esta normalización está funcionando bien, y qué implica con respecto a la intuición GD que guía a DL y otros modelos de aprendizaje comunes.
Danny Rosen