¿Cuál es la relación entre la teoría de juegos y el aprendizaje por refuerzo?

11

Estoy interesado en el aprendizaje de refuerzo (profundo) (RL) . Antes de sumergirme en este campo, ¿debería tomar un curso de Teoría de juegos (GT) ?

¿Cómo se relacionan GT y RL ?

Kiuhnm
fuente
2
Están tan estrechamente relacionados como los martillos y la crema batida. Probablemente pueda encontrar un problema en el que pueda usar ambos, pero no es común.
Don Reba
44
@DonReba No, según dos conocidos investigadores de Reinforcement Learning: udacity.com/course/… Creo que Game Theory te dice cuál es la política óptima, mientras que RL te dice cómo los agentes pueden aprender la política óptima o buena.
Kiuhnm
3
@DonReba, tal vez en términos del contenido habitual que se enseña en ellos. Sin embargo, los propósitos de los dos campos no son tan diferentes. El aprendizaje de refuerzo podría verse como un juego de información imperfecta, a menudo para un jugador. O como un juego de dos jugadores en el que el otro jugador, la naturaleza, sigue un conjunto de reglas que deseas descubrir.
conjeturas
1
Esto fue educativo. :)
Don Reba

Respuestas:

12

En el aprendizaje por refuerzo (RL) es común imaginar un proceso de decisión subyacente de Markov (MDP). Entonces, el objetivo de RL es aprender una buena política para el MDP, que a menudo solo se especifica parcialmente. Los MDP pueden tener diferentes objetivos, como recompensa total, promedio o con descuento, donde la recompensa con descuento es la suposición más común para RL. Hay extensiones bien estudiadas de MDP para configuraciones de dos jugadores (es decir, juegos); ver, por ejemplo,

Filar, Jerzy y Koos Vrieze. Procesos de decisión competitivos de Markov . Springer Science & Business Media, 2012.

Hay una teoría subyacente compartida por los MDP y sus extensiones a los juegos de dos jugadores (suma cero), que incluyen, por ejemplo, el teorema del punto fijo de Banach, la iteración del valor, la optimización de Bellman, la iteración de la política / mejora de la estrategia, etc. Sin embargo, mientras haya Estas estrechas conexiones entre MDP (y por lo tanto RL) y estos tipos específicos de juegos:

  • puede aprender sobre RL (y MDP) directamente, sin GT como requisito previo;
  • de todos modos, no aprendería sobre estas cosas en la mayoría de los cursos de GT (que normalmente se centrarían, por ejemplo, en juegos de forma estratégica, forma extensa y repetidos, pero no en los juegos infinitos basados ​​en estado que generalizan MDP).
Rahul Savani
fuente
0

RL: Un solo agente está capacitado para resolver un problema de decisión de Markov (MDPS). GT: Dos agentes están entrenados para resolver juegos. Un aprendizaje de refuerzo de múltiples agentes (MARL) se puede utilizar para resolver juegos estocásticos.

Si está interesado en la aplicación de agente único de RL en el aprendizaje profundo, no necesita ir a ningún curso de GT. Para dos o más agentes, es posible que necesite conocer las técnicas de teoría de juegos.

Khalid Ibrahim
fuente