¿Qué hace que las redes neuronales sean un modelo de clasificación no lineal?

18

Estoy tratando de entender el significado matemático de los modelos de clasificación no lineal:

Acabo de leer un artículo que habla de que las redes neuronales son un modelo de clasificación no lineal.

Pero me doy cuenta de que:

ingrese la descripción de la imagen aquí

La primera capa:

h1=x1wx1h1+x2wx1h2

h2=x1wx2h1+x2wx2h2

La capa posterior

y=bwby+h1wh1y+h2wh2y

Se puede simplificar a

=si+(X1wX1h1+X2wX1h2)wh1y+(X1wX2h1+X2wX2h2)wh2y

=b+x1(wh1ywx1h1+wx2h1wh2y)+x2(wh1ywx1h1+wx2h2wh2y)

Una red neuronal de dos capas es solo una simple regresión lineal

=b+x1W1+x2W2

Esto se puede mostrar a cualquier número de capas, ya que la combinación lineal de cualquier número de pesos es nuevamente lineal.

¿Qué hace que una red neuronal sea un modelo de clasificación no lineal?
¿Cómo afectará la función de activación a la no linealidad del modelo?
¿Me puedes explicar?

Alvaro Joao
fuente

Respuestas:

18

Creo que olvida la función de activación en los nodos en la red neuronal, que no es lineal y hará que todo el modelo no sea lineal.

En su fórmula no es totalmente correcta, donde,

h1w1x1+w2x2

pero

h1=sigmoid(w1x1+w2x2)

donde sigmoid funciona así, sigmoid(x)=11+ex

ingrese la descripción de la imagen aquí

Usemos un ejemplo numérico para explicar el impacto de la función sigmoidea, supongamos que tiene luego sigmoide ( 4 ) = 0.99 . Por otro lado, suponga que tiene , y es casi lo mismo que , que no es lineal.w1x1+w2x2=4sigmoideo(4 4)=0,99w1X1+w2X2=4000sigmoideo(4000)=1sigmoideo(4 4)


Además, creo que la diapositiva 14 de este tutorial puede mostrar exactamente dónde hizo mal. Para por favor, no la otuput no es -7.65, sinoH1sigmoideo(-7.65)

ingrese la descripción de la imagen aquí

Haitao Du
fuente
1
¿Cómo afectará la función de activación a la no linealidad del modelo? ¿Me puedes explicar?
Alvaro Joao
3

Tienes razón en que múltiples capas lineales pueden ser equivalentes a una sola capa lineal. Como han dicho las otras respuestas, una función de activación no lineal permite la clasificación no lineal. Decir que un clasificador es no lineal significa que tiene un límite de decisión no lineal. El límite de decisión es una superficie que separa las clases; el clasificador predecirá una clase para todos los puntos en un lado del límite de decisión, y otra clase para todos los puntos en el otro lado.

yhwsi

y=σ(hw+si)

σ1C

C={0 0y0,51y>0,5

hW+siy

Anteriormente dije que el límite de decisión no es lineal, pero un hiperplano es la definición misma de un límite lineal. Pero, hemos estado considerando el límite como una función de las unidades ocultas justo antes de la salida. Las activaciones de unidades ocultas son una función no lineal de las entradas originales, debido a las capas ocultas anteriores y sus funciones de activación no lineal. Una forma de pensar en la red es que asigna los datos de forma no lineal a algún espacio de características. Las coordenadas en este espacio están dadas por las activaciones de las últimas unidades ocultas. La red realiza una clasificación lineal en este espacio (regresión logística, en este caso). También podemos pensar en el límite de decisión en función de las entradas originales. Esta función será no lineal, como consecuencia de la asignación no lineal de entradas a activaciones de unidades ocultas.

Esta publicación de blog muestra algunas buenas figuras y animaciones de este proceso.

usuario20160
fuente
1

La no linealidad proviene de la función de activación sigmoidea, 1 / (1 + e ^ x), donde x es la combinación lineal de predictores y pesos a los que hizo referencia en su pregunta.

Por cierto, los límites de esta activación son cero y uno porque el denominador se vuelve tan grande que la fracción se acerca a cero o e ^ x se vuelve tan pequeño que la fracción se acerca a 1/1.

Ryan Zotti
fuente