Recientemente aprendí sobre Q-learning, una técnica de aprendizaje de refuerzo que estima directamente el valor esperado de tomar una acción en un estado. Me pregunto si existen técnicas para hacer "aprendizaje dinámico", para estimar la dinámica de un sistema. Un agente de "aprendizaje dinámico"...