Dinámica de aprendizaje

Recientemente aprendí sobre Q-learning, una técnica de aprendizaje de refuerzo que estima directamente el valor esperado de tomar una acción en un estado.

Me pregunto si existen técnicas para hacer "aprendizaje dinámico", para estimar la dinámica de un sistema. Un agente de "aprendizaje dinámico" podría elegir acciones que lo ayuden a estimar la función de transición de estado, o estimar parámetros de alguna función de transición conocida.

Por ejemplo, un agente de "aprendizaje de dinámicas" en el sistema del carro-poste descubriría una función que se aproxima a las ecuaciones de movimiento del carro-poste. O bien, el agente puede conocer estas ecuaciones, pero no los parámetros del sistema, como el momento de inercia del péndulo o la masa del carro.

¿Qué técnicas hay para hacer "aprendizaje dinámico"?

machine-learning physics Robz
fuente

Respuestas:

Hay tres problemas. Primero, debe elegir una clase de modelos para la dinámica. En segundo lugar, debe construir un conjunto de entrenamiento, llevando al agente por diferentes trayectorias para explorar el espacio de estado. En tercer lugar, necesita una forma de aprender / inferir un modelo de dinámica particular de este conjunto de entrenamiento. Hay diferentes formas de crear instancias de cada una de estas tareas.

En robótica, una opción común es utilizar un proceso de decisión de Markov (MDP) para el modelo dinámico. Esta es una opción conveniente, porque hay formas relativamente estándar de aprender un MDP de un conjunto de entrenamiento, y dado que dado un modelo de dinámica MDP, está bien estudiado cómo construir un controlador para el sistema que tenga en cuenta la dinámica. Otra opción es utilizar un proceso de decisión de Markov de orden superior o un proceso de decisión de Markov parcialmente observable, pero puede ser mucho más difícil de manejar.

Hay muchas formas de explorar el espacio estatal. El capítulo 3.1 de la tesis doctoral de Pieter Abbeel tiene una buena visión general a partir de 2008.

Para inferir / aprender un MDP dado un conjunto de entrenamiento, puede usar la estimación de máxima verosimilitud. También son posibles técnicas más sofisticadas; vea la tesis doctoral de Abbeel para una visión general de esto también (Capítulos 3 y 4).

De manera más general, consulte la literatura sobre identificación de sistemas desde el campo de la teoría de control.

DW
fuente