Importancia del nodo de sesgo en redes neuronales

19

Tengo curiosidad por saber qué tan importante es el nodo de sesgo para la efectividad de las redes neuronales modernas. Puedo entender fácilmente que puede ser importante en una red poco profunda con solo unas pocas variables de entrada. Sin embargo, las redes neuronales modernas, como en el aprendizaje profundo, a menudo tienen una gran cantidad de variables de entrada para decidir si se activa una determinada neurona. ¿Simplemente eliminarlos de, por ejemplo, LeNet5 o ImageNet tendría algún impacto real?

pir
fuente
@gung - He visto que has editado el título para usar la frase "nodo de sesgo". Tengo curiosidad por saber por qué prefieres ese título. Nunca he escuchado ese uso antes. Además, parece confuso usar la palabra "nodo" cuando el sesgo no es un nodo separado en una red.
pir
2
Si no le gusta, puede revertir la edición con mis disculpas. Siempre pensé que el nombre era bastante estándar, aunque no he jugado con ANN en años y algunos lo llaman la "neurona de sesgo". FWIW, "sesgo" es un poco ambiguo en estadística / ML; se refiere más comúnmente a un estimador cuya distribución de muestreo no está centrada en el valor verdadero del parámetro, o una función predictiva / valor pronosticado que difiere de la función / media verdadera, etc., mientras que el nodo de sesgo es una parte específica de un ANA.
gung - Restablece a Monica
2
Es un nodo real, al menos en el sentido de que cualquiera de ellos lo está, en la red. Por ejemplo, vea los nodos negros en esta imagen .
gung - Restablece a Monica
Bien, eso tiene sentido, es cierto que el "sesgo" es bastante ambiguo. Gracias por la explicación.
pir
1
Para las neuronas, la unidad de sesgo parece un disparo expontáneo, esto sucede en la naturaleza.
user3927612

Respuestas:

15

Eliminar el sesgo definitivamente afectará el rendimiento y esta es la razón ...

Cada neurona es como una simple regresión logística y tienes . Los valores de entrada se multiplican con los pesos y el sesgo afecta el nivel inicial de aplastamiento en la función sigmoidea (tanh, etc.), lo que da como resultado la no linealidad deseada.y=σ(Wx+b)

Por ejemplo, suponga que desea que una neurona dispare cuando todos los píxeles de entrada son negros . Si no hay sesgo, independientemente de los pesos que tenga, dada la ecuación la neurona siempre disparará .x 0 W y = σ ( W x ) y 0.5y1x0Wy=σ(Wx)y0.5

Por lo tanto, al eliminar los términos de sesgo, disminuiría sustancialmente el rendimiento de su red neuronal.

Yannis Assael
fuente
2
Gracias, eso tiene sentido. Supongo que, aunque la mayoría de las redes modernas usan ReLU como la función de activación (ver, por ejemplo, papers.nips.cc/paper/4824-imagenet ), esto podría ser relevante si la red necesita dispararse cuando todos los píxeles de entrada son negros. ReLU se define como f (x) = max (0, x).
pir
¡exactamente! es el mismo caso ...
Yannis Assael
44
El gráfico representa las activaciones de una neurona sigmoidea dada la entrada. Ahora suponga que queremos que una neurona dispare cuando todos los píxeles son negros . Esto sería imposible sin el término de sesgo y cuando siempre disparará . x 0 x 0 y 0.5y1x0x0y0.5
Yannis Assael
2
Si bien estoy de acuerdo con la teoría, vale la pena señalar que con las grandes redes modernas, las posibilidades de obtener una entrada de cero son insignificantes. Esto también se basa en la suposición de que una red querría disparar un 1: las redes profundas probablemente no se preocuparán por la salida de una sola neurona; esto es en parte por qué la deserción es tan popular para regularizar las redes.
Max Gordon
2
@MaxGordon tiene razón. Esta respuesta no se aplica a esta pregunta. Intente eliminar el sesgo de una gran red y verá que hace muy poca diferencia.
Neil G
10

No estoy de acuerdo con la otra respuesta en el contexto particular de su pregunta. Sí, un nodo de sesgo es importante en una red pequeña. Sin embargo, en un modelo grande, eliminar las entradas de sesgo hace muy poca diferencia porque cada nodo puede hacer un nodo de sesgo a partir de la activación promedio de todas sus entradas, que según la ley de números grandes será más o menos normal. En la primera capa, la capacidad de que esto suceda depende de su distribución de entrada. Para MNIST, por ejemplo, la activación promedio de la entrada es aproximadamente constante.

En una red pequeña, por supuesto, necesita una entrada de polarización, pero en una red grande, eliminarla casi no hace ninguna diferencia. (Pero, ¿por qué lo eliminarías?)

Neil G
fuente
3

Comentaría sobre la respuesta de @ NeilG si tuviera suficiente reputación, pero por desgracia ...

No estoy de acuerdo contigo, Neil, en esto. Tu dices:

... la activación promedio de todas sus entradas, que según la ley de grandes números será más o menos normal.

Yo argumentaría en contra de eso, y diría que la ley del gran número exige que todas las observaciones sean independientes entre sí. Este no es el caso en algo así como redes neuronales. Incluso si cada activación se distribuye normalmente, si observa que un valor de entrada es excepcionalmente alto, cambia la probabilidad de todas las demás entradas. Por lo tanto, las "observaciones", en este caso, las entradas, no son independientes, y la ley de los grandes números no se aplica.

A menos que no entienda tu respuesta.

ArturJ
fuente