Recientemente me encontré con la palabra "Aprendizaje de refuerzo recurrente". Entiendo qué es "Red neuronal recurrente" y qué es "Aprendizaje de refuerzo", pero no pude encontrar mucha información sobre lo que es un "Aprendizaje de refuerzo recurrente".
¿Puede alguien explicarme qué es un "aprendizaje de refuerzo recurrente" y cuál es la diferencia entre el "aprendizaje de refuerzo recurrente" y el "aprendizaje de refuerzo" normal como el algoritmo Q-Learning.
fuente
La distinción de RL recurrente (profundo) es que la función que asigna las observaciones de los agentes a su acción de salida es una red neuronal recurrente.
Una red neuronal recurrente es un tipo de red neuronal que procesa cada observación secuencialmente, de la misma manera para cada paso de tiempo.
Documento original: Aprendizaje profundo de Q recurrente para MDP parcialmente observables
fuente