De acuerdo con este tutorial sobre aprendizaje profundo , la pérdida de peso (regularización) generalmente no se aplica a los términos de sesgo b ¿por qué?
¿Cuál es el significado (intuición) detrás de esto?
De acuerdo con este tutorial sobre aprendizaje profundo , la pérdida de peso (regularización) generalmente no se aplica a los términos de sesgo b ¿por qué?
¿Cuál es el significado (intuición) detrás de esto?
Respuestas:
El sobreajuste generalmente requiere que la salida del modelo sea sensible a pequeños cambios en los datos de entrada (es decir, para interpolar exactamente los valores objetivo, tiende a necesitar mucha curvatura en la función ajustada). Los parámetros de sesgo no contribuyen a la curvatura del modelo, por lo que generalmente también tiene poco sentido regularizarlos.
fuente
La motivación detrás de L2 (o L1) es que al restringir los pesos, restringir la red, es menos probable que se sobreajuste. Tiene poco sentido restringir los pesos de los sesgos, ya que los sesgos son fijos (por ejemplo, b = 1), por lo tanto, funcionan como intercepciones neuronales, lo que tiene sentido que se les dé una mayor flexibilidad.
fuente
Agregaría que el término de sesgo a menudo se inicializa con una media de en
1
lugar de de0
, por lo que podríamos querer regularizarlo para no alejarnos demasiado de un valor constante1
como hacer en1/2*(bias-1)^2
lugar de1/2*(bias)^2
.Tal vez
-1
podría ser útil reemplazar la parte por una resta a la media de los sesgos, tal vez una media por capa o una general. Sin embargo, esta es solo una hipótesis que estoy haciendo (sobre la resta media).Todo esto depende de la función de activación también. Por ejemplo: los sigmoides pueden ser malos aquí para los gradientes de desaparición si los sesgos se regularizan a compensaciones constantes altas.
fuente
El tutorial dice que "aplicar la disminución de peso a las unidades de polarización generalmente solo hace una pequeña diferencia en la red final", por lo que si no ayuda, puede dejar de hacerlo para eliminar un hiperparámetro. Si cree que regularizar el desplazamiento ayudaría en su configuración, valide de forma cruzada; no hay daño en intentarlo.
fuente