¿Puede la red neuronal (p. Ej., Red neuronal convolucional) tener pesos negativos?

13

¿Es posible tener pesos negativos (después de suficientes épocas) para redes neuronales convolucionales profundas cuando usamos ReLU para todas las capas de activación?

RockTheStar
fuente
No veo ninguna razón por la que no puedan ser negativos. ¿Hay alguna razón / observación particular que tenga en mente?
Sobi
Solo estoy imaginando el proceso de SGD y pienso si el peso negativo es común y posible.
RockTheStar
Pensó en eso porque el "peso" se asemeja a las sinapsis, los enlaces entre las neuronas, entonces, ¿cómo podemos tener -2 sinapsis hacia una neurona? Me tropecé aquí después de buscar exactamente lo mismo en Google ... Supongo que podría ser posible de todos modos, podría significar eventualmente una sinapsis o un enlace que faltan y los "saltos" para llegar a la b desde otro lado que se resta del cálculo, pero no estoy realmente seguro, solo estoy pensando
prueba

Respuestas:

10

Las unidades lineales rectificadas (ReLU) solo hacen que la salida de las neuronas sea no negativa. Sin embargo, los parámetros de la red pueden volverse positivos o negativos, dependiendo de los datos de entrenamiento.

Aquí hay dos razones que puedo pensar en este momento que justifican (intuitivamente) por qué algunos parámetros se volverían negativos:

  1. la regularización de los parámetros (también conocido como la pérdida de peso); la variación en los valores de los parámetros hace posible la predicción, y si los parámetros están centrados alrededor de cero (es decir, su media es cercana a cero), entonces su norma (que es un regularizador estándar) es baja.2

  2. aunque los gradientes de la salida de una capa con respecto a los parámetros de la capa dependen de la entrada a la capa (que siempre son positivos suponiendo que la capa anterior pasa sus salidas a través de una ReLU), sin embargo, el gradiente del error (que viene desde las capas más cercanas a las capas de salida finales) puede ser positivo o negativo, lo que hace posible que SGD haga que algunos de los valores de los parámetros sean negativos después de tomar el siguiente paso de gradiente. Más específicamente, dejemos que , O y w denoten la entrada, la salida y los parámetros de una capa en una red neuronal. Además, sea E el error final de la red inducido por alguna muestra de entrenamiento. El gradiente del error con respecto a w se calcula como IOwEw ; tenga en cuenta queOk=O,k(vea la imagen a continuación):Ew=(k=1KEOk)OkwOk=O,k

ingrese la descripción de la imagen aquí

Sobi
fuente
1

Imagine que tiene pesos óptimos que no son negativos.

xi=xi{xi,y}

nakajuice
fuente
-3

A menos que use otra función de activación, por ejemplo, Leaky ReLU. Los pesos rectificados de las capas después de la primera no son negativos independientemente de cuántas épocas en el entrenamiento.

pateheo
fuente
1
¡Muchas gracias! ¿Puede explicar un poco más de detalles sobre cómo Leaky ReLU puede conducir a un peso negativo?
RockTheStar
Parece que el reclamo no es cierto. He llevado a cabo entrenamientos en la red activada por ReLU, las matrices en la transformación afín ("Ws") y las compensaciones ("b"), que supongo arbitradas en esta pregunta como los pesos, obtienen valores negativos.
ellos