En la configuración general del algoritmo de descenso de gradiente, tenemos donde x n es el punto actual, η es el tamaño del paso y g r a d i e n t x n es el gradiente evaluado en x n .
He visto en algún algoritmo, la gente usa gradiente normalizado en lugar de gradiente . Quería saber cuál es la diferencia en el uso de gradiente normalizado y simplemente gradiente .
algorithms
optimization
Aprendiz
fuente
fuente
Respuestas:
3] Si desea dejar que la magnitud del gradiente dicte el tamaño del paso, entonces utilizará el descenso de gradiente no normalizado. Hay varias otras variantes, como que puedes dejar que la magnitud del gradiente decida el tamaño del paso, pero le pones un límite y así sucesivamente.
Ahora, el tamaño del paso claramente influye en la velocidad de convergencia y estabilidad. Cuál de los tamaños de pasos anteriores funciona mejor depende únicamente de su aplicación (es decir, la función objetivo). En ciertos casos, se puede analizar la relación entre la velocidad de convergencia, la estabilidad y el tamaño del paso. Esta relación puede dar una pista sobre si desea ir con un descenso de gradiente normalizado o no normalizado.
Para resumir, no hay diferencia entre el descenso de gradiente normalizado y no normalizado (en lo que respecta a la teoría detrás del algoritmo). Sin embargo, tiene un impacto práctico en la velocidad de convergencia y estabilidad. La elección de uno sobre el otro se basa únicamente en la aplicación / objetivo en cuestión.
fuente
fuente
fuente