La diferencia clave entre un GRU y un LSTM es que un GRU tiene dos compuertas ( restablecer y actualizar compuertas) mientras que un LSTM tiene tres compuertas (es decir , compuertas de entrada , salida y olvido ).
¿Por qué hacemos uso de GRU cuando claramente tenemos más control en la red a través del modelo LSTM (ya que tenemos tres puertas)? ¿En qué escenario se prefiere GRU sobre LSTM?
neural-network
deep-learning
Sayali Sonawane
fuente
fuente
Respuestas:
GRU está relacionado con LSTM, ya que ambos utilizan una forma diferente si compilan información para evitar el problema de gradiente de fuga. Aquí hay algunos puntos clave sobre GRU vs LSTM-
Para una descripción detallada, puede explorar este trabajo de investigación - Arxiv.org . El artículo explica todo esto brillantemente.
Además, también puede explorar estos blogs para tener una mejor idea.
¡Espero eso ayude!
fuente
* Para complementar las excelentes respuestas anteriores.
Según mi experiencia, los GRU entrenan más rápido y funcionan mejor que los LSTM con menos datos de entrenamiento si está haciendo modelado de idiomas (no estoy seguro acerca de otras tareas).
Los GRU son más simples y, por lo tanto, más fáciles de modificar, por ejemplo, agregando nuevas puertas en caso de entrada adicional a la red. Es solo menos código en general.
En teoría, los LSTM deberían recordar secuencias más largas que las GRU y superarlas en tareas que requieran modelar relaciones a larga distancia.
* Algunos documentos adicionales que analizan GRU y LSTM.
"Las GPU neuronales aprenden algoritmos" (Łukasz Kaiser, Ilya Sutskever, 2015) https://arxiv.org/abs/1511.08228
"Estudio comparativo de CNN y RNN para el procesamiento del lenguaje natural" (Wenpeng Yin et al. 2017) https://arxiv.org/abs/1702.01923
fuente
Esta respuesta realmente se encuentra en el conjunto de datos y el caso de uso. Es difícil decir definitivamente cuál es mejor.
fuente
Unidad FULL GRU
Unidad LSTM
Como se puede ver en las ecuaciones, los LSTM tienen una puerta de actualización separada y una puerta de olvido. Esto claramente hace que los LSTM sean más sofisticados pero al mismo tiempo más complejos también. No hay una manera simple de decidir cuál usar para su caso de uso particular. Siempre tiene que hacer prueba y error para probar el rendimiento. Sin embargo, debido a que GRU es más simple que LSTM, los GRU tomarán mucho menos tiempo para entrenar y son más eficientes.
Créditos: Andrew Ng
fuente
GRU es mejor que LSTM, ya que es fácil de modificar y no necesita unidades de memoria, por lo tanto, es más rápido de entrenar que LSTM y da según el rendimiento.
fuente
En realidad, la diferencia clave resulta ser más que eso: los perceptrones a corto y largo plazo (LSTM) se componen utilizando los algoritmos de momento y descenso de gradiente. Cuando se concilian los perceptrones LSTM con sus equivalentes recursivos RNN, se obtiene GRU, que en realidad es solo una unidad recurrente generalizada o una unidad recurrente de gradiente (según el contexto) que integra más estrechamente los algoritmos de momento y descenso de gradiente. Si yo fuera usted, investigaría más sobre AdamOptimizers.
GRU es un concepto desactualizado por cierto. Sin embargo, puedo entender que lo investigue si desea un conocimiento profundo moderado-avanzado de TF.
fuente