Redes neuronales: impulso de cambio de peso y decadencia de peso

41

Momentum se usa para disminuir las fluctuaciones en los cambios de peso en iteraciones consecutivas:α

dondeE(w)es la función de error,w- el vector de pesos,η- tasa de aprendizaje.

Δωi(t+1)=ηEwi+αΔωi(t),
E(w)wη

La disminución de peso penaliza los cambios de peso:λ

Δωi(t+1)=ηEwiληωi

La pregunta es si tiene sentido combinar ambos trucos durante la propagación hacia atrás y qué efecto tendría.

Δωi(t+1)=ηEwi+αΔωi(t)ληωi
Oleg Shirokikh
fuente
1
¿Quiere decir ωi (t + 1) = ωi - η ∂E / ∂wi + αΔωi (t), en lugar de Δωi (t + 1) = ωi - η∂E / ∂wi + αΔωi (t)?
hakunamatata

Respuestas:

48

Sí, es muy común usar ambos trucos. Resuelven diferentes problemas y pueden funcionar bien juntos.

Una forma de pensarlo es que la pérdida de peso cambia la función que se está optimizando , mientras que el impulso cambia el camino que toma al óptimo .

La disminución de peso, al reducir sus coeficientes hacia cero, asegura que encuentre un óptimo local con parámetros de pequeña magnitud. Esto suele ser crucial para evitar el sobreajuste (aunque también pueden funcionar otros tipos de restricciones en los pesos). Como beneficio adicional, también puede hacer que el modelo sea más fácil de optimizar, al hacer que la función objetivo sea más convexa.

Una vez que tiene una función objetivo, debe decidir cómo moverse sobre ella. El descenso más pronunciado en el gradiente es el enfoque más simple, pero tienes razón en que las fluctuaciones pueden ser un gran problema. Agregar impulso ayuda a resolver ese problema. Si está trabajando con actualizaciones por lotes (que generalmente es una mala idea con las redes neuronales), los pasos tipo Newton son otra opción. Los nuevos enfoques "candentes" se basan en el gradiente acelerado de Nesterov y la denominada optimización "libre de arpillera".

Pero independientemente de cuál de estas reglas de actualización use (impulso, Newton, etc.), todavía está trabajando con la misma función objetivo, que está determinada por su función de error (por ejemplo, error al cuadrado) y otras restricciones (por ejemplo, disminución de peso) . La pregunta principal al decidir cuál de estos usar es qué tan rápido llegará a un buen conjunto de pesas.

David J. Harris
fuente
'también puede hacer que el modelo sea más fácil de optimizar, al hacer que la función objetivo sea más convexa', ¿podría explicar cómo los pesos más pequeños lo hacen posible?
Alex
sin(x)ax2a
Buena respuesta, gracias. ¿Qué pasa con Adam Optimizer? ¿Funciona mejor que la combinación de pérdida de peso e impulso?
A. Piro
Adán es como el impulso, pero no como la pérdida de peso; afecta cómo navega la función objetivo, pero no la función objetivo en sí.
David J. Harris