La disminución de peso especifica la regularización en la red neuronal.
Durante el entrenamiento, se agrega un término de regularización a la pérdida de la red para calcular el gradiente de retropropagación. El weight decay
valor determina cuán dominante será este término de regularización en el cálculo del gradiente.
Como regla general, cuantos más ejemplos de entrenamiento tenga, más débil debería ser este término. Cuantos más parámetros tenga, mayor será este término.
Entonces, la pérdida de peso es un término de regularización que penaliza los grandes pesos. Cuando el coeficiente de caída de peso es grande, la penalización por los pesos grandes también es grande, cuando es pequeño, los pesos pueden crecer libremente.
Entonces, ahora, si vuelves a leer la respuesta que vinculaste en tu pregunta, ahora tendría mucho sentido.