Recientemente aprendí sobre Q-learning, una técnica de aprendizaje de refuerzo que estima directamente el valor esperado de tomar una acción en un estado.
Me pregunto si existen técnicas para hacer "aprendizaje dinámico", para estimar la dinámica de un sistema. Un agente de "aprendizaje dinámico" podría elegir acciones que lo ayuden a estimar la función de transición de estado, o estimar parámetros de alguna función de transición conocida.
Por ejemplo, un agente de "aprendizaje de dinámicas" en el sistema del carro-poste descubriría una función que se aproxima a las ecuaciones de movimiento del carro-poste. O bien, el agente puede conocer estas ecuaciones, pero no los parámetros del sistema, como el momento de inercia del péndulo o la masa del carro.
¿Qué técnicas hay para hacer "aprendizaje dinámico"?