Estoy interesado en el aprendizaje de refuerzo (profundo) (RL) . Antes de sumergirme en este campo, ¿debería tomar un curso de Teoría de juegos (GT) ?
¿Cómo se relacionan GT y RL ?
Estoy interesado en el aprendizaje de refuerzo (profundo) (RL) . Antes de sumergirme en este campo, ¿debería tomar un curso de Teoría de juegos (GT) ?
¿Cómo se relacionan GT y RL ?
Respuestas:
En el aprendizaje por refuerzo (RL) es común imaginar un proceso de decisión subyacente de Markov (MDP). Entonces, el objetivo de RL es aprender una buena política para el MDP, que a menudo solo se especifica parcialmente. Los MDP pueden tener diferentes objetivos, como recompensa total, promedio o con descuento, donde la recompensa con descuento es la suposición más común para RL. Hay extensiones bien estudiadas de MDP para configuraciones de dos jugadores (es decir, juegos); ver, por ejemplo,
Filar, Jerzy y Koos Vrieze. Procesos de decisión competitivos de Markov . Springer Science & Business Media, 2012.
Hay una teoría subyacente compartida por los MDP y sus extensiones a los juegos de dos jugadores (suma cero), que incluyen, por ejemplo, el teorema del punto fijo de Banach, la iteración del valor, la optimización de Bellman, la iteración de la política / mejora de la estrategia, etc. Sin embargo, mientras haya Estas estrechas conexiones entre MDP (y por lo tanto RL) y estos tipos específicos de juegos:
fuente
La teoría de juegos está bastante involucrada en el contexto del aprendizaje de refuerzo de múltiples agentes (MARL).
Eche un vistazo a los juegos estocásticos o lea el artículo Análisis de la teoría del juego estocástico para el aprendizaje de refuerzo multiagente .
No vería GT como un requisito previo para RL. Sin embargo, proporciona una buena extensión para el caso de múltiples agentes.
fuente
RL: Un solo agente está capacitado para resolver un problema de decisión de Markov (MDPS). GT: Dos agentes están entrenados para resolver juegos. Un aprendizaje de refuerzo de múltiples agentes (MARL) se puede utilizar para resolver juegos estocásticos.
Si está interesado en la aplicación de agente único de RL en el aprendizaje profundo, no necesita ir a ningún curso de GT. Para dos o más agentes, es posible que necesite conocer las técnicas de teoría de juegos.
fuente