¿Cómo funciona el término de impulso para el algoritmo de retropropagación?

Al actualizar los pesos de una red neuronal utilizando el algoritmo de retropropagación con un término de impulso, ¿debería aplicarse también la tasa de aprendizaje al término de impulso?

La mayor parte de la información que pude encontrar sobre el uso del momento tiene las ecuaciones que se parecen a esto:

$W_{i}' = W_{i} - \alpha \Delta W_i + \mu \Delta W_{i-1}$

donde es la tasa de aprendizaje y es el término de impulso. $\alpha$ $\mu$

si el término es mayor que el término , en la siguiente iteración el de la iteración anterior tendrá una mayor influencia en el peso que el actual. $\mu$ $\alpha$ $\Delta W$

¿Es este el propósito del término de impulso? ¿o debería la ecuación verse más así?

$W_{i}' = W_{i} - \alpha( \Delta W_i + \mu \Delta W_{i-1})$

es decir. escalando todo por la tasa de aprendizaje?

machine-learning neural-networks guskenny83
fuente

Respuestas:

Uso de retropropagación con impulso en una red con diferentes pesos la de corrección-ésima para el peso está dada por $n$ $W_k$ $i$ $W_k$

donde $\Delta W_k(i) = -\alpha \frac{\partial E}{\partial W_k} + \mu \Delta W_k(i-1)$ es la variación de la pérdida wrt. $\frac{\partial E}{\partial W_k}$ $W_k$

La introducción de la velocidad de impulso permite la atenuación de las oscilaciones en el descenso del gradiente. La idea geométrica detrás de esta idea probablemente se puede entender mejor en términos de un análisis de espacio propio en el caso lineal. Si la relación entre el valor propio más bajo y el más grande es grande, realizar un descenso de gradiente es lento incluso si la tasa de aprendizaje es grande debido al condicionamiento de la matriz. El impulso introduce cierto equilibrio en la actualización entre los vectores propios asociados a valores propios más bajos y más grandes.

Para más detalles me refiero a

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

nico
fuente

¿Qué significa el underbrace?

David Richerby

Δ W_{k}

$\Delta W_k$

μ W_{k} (i - 1)

$\mu W_k(i-1)$

μ Δ W_{k} (i - 1)

$\mu \Delta W_k(i-1)$

Δ W_{k} (i - 1)

$\Delta W_k(i-1)$

¿Qué quiere decir con "variación de la pérdida"? ¿Es algo así como "variación en el error"?

starbeamrainbowlabs

No significa nada más que la derivada del error con respecto a los pesos.

nico