Estoy ampliando mi conocimiento del paquete Keras y he estado trabajando con algunos de los modelos disponibles. Tengo un problema de clasificación binaria de PNL que estoy tratando de resolver y he estado aplicando diferentes modelos.
Después de trabajar con algunos resultados y leer más y más sobre LSTM, parece que este enfoque es muy superior a cualquier otra cosa que haya probado (en múltiples conjuntos de datos). Sigo pensando para mí mismo, "¿por qué / cuándo no usarías LSTM?". El uso de las puertas adicionales, inherentes a LSTM, tiene mucho sentido para mí después de tener algunos modelos que sufren gradientes que desaparecen.
Entonces, ¿cuál es el problema con LSTM? ¿Dónde no les va tan bien? Sé que no existe un algoritmo de "talla única", por lo que debe haber una desventaja en LSTM.
fuente
Respuestas:
Tiene razón en que los LSTM funcionan muy bien para algunos problemas, pero algunos de los inconvenientes son:
Estos son en comparación con un modelo más simple como una red de conv 1D, por ejemplo.
Los primeros tres elementos se deben a que los LSTM tienen más parámetros.
fuente