Soy muy nuevo en el aprendizaje profundo y estoy particularmente interesado en saber qué son LSTM y BiLSTM y cuándo usarlos (áreas principales de aplicación). ¿Por qué LSTM y BILSTM son más populares que RNN?
¿Podemos usar estas arquitecturas de aprendizaje profundo en problemas no supervisados?
Respuestas:
RNN
A las arquitecturas les gustaLSTM
yBiLSTM
se usan en ocasiones en las que el problema de aprendizaje es secuencial, por ejemplo, si tiene un video y desea saber de qué se trata todo esto o si desea que un agente lea una línea de documento para usted, que es una imagen de texto y No en formato de texto. Le recomiendo que eche un vistazo aquí .LSTMs
y sus variantes bidireccionales son populares porque han tratado de aprender cómo y cuándo olvidar y cuándo no usar puertas en su arquitectura. EnRNN
arquitecturas anteriores , la desaparición de los gradientes era un gran problema y hacía que esas redes no aprendieran tanto.Con Bidireccional
LSTMs
, alimenta el algoritmo de aprendizaje con los datos originales una vez de principio a fin y una vez de principio a fin. Aquí hay debates, pero generalmente se aprende más rápido que el enfoque unidireccional, aunque depende de la tarea.Sí, también puede usarlos en el aprendizaje no supervisado según su tarea. mira aquí y aquí .
fuente
Los humanos no comienzan a pensar desde cero cada segundo. A medida que lee este ensayo, comprende cada palabra en función de su comprensión de las palabras anteriores. No tiras todo y comienzas a pensar desde cero de nuevo. Tus pensamientos tienen persistencia.
Las redes neuronales tradicionales no pueden hacer esto, y parece una gran deficiencia. Por ejemplo, imagine que desea clasificar qué tipo de evento está ocurriendo en cada punto de una película. No está claro cómo una red neuronal tradicional podría usar su razonamiento sobre eventos anteriores en la película para informar a los posteriores.
Las redes neuronales recurrentes abordan este problema. Son redes con bucles que permiten que la información persista.
Para más información, visite el blog de Cohen
fuente
En comparación con LSTM,
BLSTM
oBiLSTM
tiene dos redes, una de acceso a lapast
información enforward
dirección y otra de accesofuture
en lareverse
dirección.WIKISe
Bidirectional
agrega una nueva clase según el documento oficial aquí :El ejemplo completo que usa datos IMDB será así
fuente