Estructura de la red neuronal recurrente (LSTM, GRU)

Respuestas:

8

A es, de hecho, una capa completa. La salida de la capa es , de hecho, es la salida de la neurona, que se puede conectar a una capa softmax (si desea una clasificación para el paso de tiempo t , por ejemplo) o cualquier otra cosa como otra capa LSTM si lo desea ir más profundo La entrada de esta capa es lo que la distingue de la red de alimentación regular: toma tanto la entrada x t como el estado completo de la red en el paso de tiempo anterior (tanto h t - 1 como las otras variables de la celda LSTM) .httXtht-1

Tenga en cuenta que es un vector. Entonces, si desea hacer una analogía con una red de alimentación regular con 1 capa oculta, entonces podría pensarse que A toma el lugar de todas estas neuronas en la capa oculta (más la complejidad adicional de la parte recurrente).ht

felipefg
fuente
¿ , c t y x t tienen la misma longitud? htCtXt
user_1177868
6

En su imagen, A es una sola capa oculta con una sola Neurona oculta. De izquierda a derecha es el eje de tiempo, y en la parte inferior recibe una entrada en todo momento. En la parte superior, la red podría expandirse aún más agregando capas.

Si despliega esta red a tiempo, como se muestra visualmente en su imagen (de izquierda a derecha, el eje de tiempo se despliega), obtendría una red de avance con T (cantidad total de pasos de tiempo) capas ocultas, cada una con un nodo único (neurona) como se dibuja en el bloque A medio.

Espero que esto responda a su pregunta.

Sjoerd
fuente
3

Me gustaría explicar ese diagrama simple en un contexto relativamente complicado: mecanismo de atención en el decodificador del modelo seq2seq.

h0 0hk-1Xyo. Ilustramos su problema al usar esto porque todos los estados del paso de tiempo se guardan para el mecanismo de atención en lugar de simplemente descartarse para obtener el último. Es solo una neural y se ve como una capa (se pueden apilar varias capas para formar, por ejemplo, un codificador bidireccional en algunos modelos seq2seq para extraer más información abstracta en las capas más altas).

Luego codifica la oración (con las palabras L y cada una representada como un vector de la forma: incrustación_dimensión * 1) en una lista de tensores L (cada una de las formas: num_hidden / num_units * 1). Y el estado pasado al decodificador es solo el último vector como la oración que incorpora la misma forma de cada elemento en la lista.

ingrese la descripción de la imagen aquí
Fuente de la imagen: mecanismo de atención

Lerner Zhang
fuente