Recientemente leí un artículo de Yann Dauphin et al. Identificando y atacando el problema del punto de silla de montar en la optimización no convexa de alta dimensión , donde introducen un interesante algoritmo de descenso llamado Saddle-Free Newton , que parece estar adaptado exactamente para la optimización de la red neuronal y no debería verse atrapado en los puntos de silla de montar como métodos de primer orden como vainilla SGD.
El documento se remonta a 2014, por lo que no es nada nuevo, sin embargo, no he visto que se use "en la naturaleza". ¿Por qué no se usa este método? ¿El cálculo de Hesse es demasiado prohibitivo para problemas / redes del tamaño real? ¿Existe alguna implementación de código abierto de este algoritmo, posiblemente para ser utilizado con algunos de los principales marcos de aprendizaje profundo?
Actualización de febrero de 2019: hay una implementación disponible ahora: https://github.com/dave-fernandes/SaddleFreeOptimizer )
fuente
Respuestas:
Una mejor optimización no significa necesariamente un mejor modelo. Al final, lo que nos importa es qué tan bien generaliza el modelo y no necesariamente qué tan bueno es el rendimiento en el conjunto de entrenamiento. Las técnicas de optimización más sofisticadas generalmente funcionan mejor y convergen más rápido en el conjunto de entrenamiento, pero no siempre generalizan tan bien como los algoritmos básicos. Por ejemplo, este documento muestra que SGD puede generalizar mejor que el optimizador ADAM. Este también puede ser el caso con algunos algoritmos de optimización de segundo orden.
[Editar] Se eliminó el primer punto ya que no se aplica aquí. Gracias a bayerj por señalar esto.
fuente