Sin término de regularización para la unidad de sesgo en la red neuronal

13

De acuerdo con este tutorial sobre aprendizaje profundo , la pérdida de peso (regularización) generalmente no se aplica a los términos de sesgo b ¿por qué?

¿Cuál es el significado (intuición) detrás de esto?

Harshit
fuente
Creo que he visto una pregunta muy similar antes, simplemente no puedo encontrarla ... Quizás debería revisar las preguntas relacionadas y encontraría la respuesta en ese momento. Además, quizás esto podría ser algo útil.
Richard Hardy

Respuestas:

13

El sobreajuste generalmente requiere que la salida del modelo sea sensible a pequeños cambios en los datos de entrada (es decir, para interpolar exactamente los valores objetivo, tiende a necesitar mucha curvatura en la función ajustada). Los parámetros de sesgo no contribuyen a la curvatura del modelo, por lo que generalmente también tiene poco sentido regularizarlos.

Dikran Marsupial
fuente
5

La motivación detrás de L2 (o L1) es que al restringir los pesos, restringir la red, es menos probable que se sobreajuste. Tiene poco sentido restringir los pesos de los sesgos, ya que los sesgos son fijos (por ejemplo, b = 1), por lo tanto, funcionan como intercepciones neuronales, lo que tiene sentido que se les dé una mayor flexibilidad.

Ramalho
fuente
1

Agregaría que el término de sesgo a menudo se inicializa con una media de en 1lugar de de 0, por lo que podríamos querer regularizarlo para no alejarnos demasiado de un valor constante 1como hacer en 1/2*(bias-1)^2lugar de 1/2*(bias)^2.

Tal vez -1podría ser útil reemplazar la parte por una resta a la media de los sesgos, tal vez una media por capa o una general. Sin embargo, esta es solo una hipótesis que estoy haciendo (sobre la resta media).

Todo esto depende de la función de activación también. Por ejemplo: los sigmoides pueden ser malos aquí para los gradientes de desaparición si los sesgos se regularizan a compensaciones constantes altas.

Guillaume Chevalier
fuente
0

El tutorial dice que "aplicar la disminución de peso a las unidades de polarización generalmente solo hace una pequeña diferencia en la red final", por lo que si no ayuda, puede dejar de hacerlo para eliminar un hiperparámetro. Si cree que regularizar el desplazamiento ayudaría en su configuración, valide de forma cruzada; no hay daño en intentarlo.

Emre
fuente