Al actualizar los pesos de una red neuronal utilizando el algoritmo de retropropagación con un término de impulso, ¿debería aplicarse también la tasa de aprendizaje al término de impulso?
La mayor parte de la información que pude encontrar sobre el uso del momento tiene las ecuaciones que se parecen a esto:
donde es la tasa de aprendizaje y es el término de impulso.μ
si el término es mayor que el término , en la siguiente iteración el de la iteración anterior tendrá una mayor influencia en el peso que el actual.α Δ W
¿Es este el propósito del término de impulso? ¿o debería la ecuación verse más así?
es decir. escalando todo por la tasa de aprendizaje?
fuente