El LSTM se inventó específicamente para evitar el problema del gradiente de fuga. Se supone que debe hacer eso con el carrusel de error constante (CEC), que en el diagrama a continuación (de Greff et al. ) Corresponde al bucle alrededor de la celda . (fuente: deeplearning4j.org ) Y entiendo que...