¿Cómo crear un nuevo entorno de gimnasio en OpenAI?

82

Tengo la tarea de hacer un agente de IA que aprenderá a jugar un videojuego usando ML. Quiero crear un nuevo entorno usando OpenAI Gym porque no quiero usar un entorno existente. ¿Cómo puedo crear un entorno nuevo y personalizado?

Además, ¿hay alguna otra forma en la que pueda comenzar a desarrollar para que AI Agent pueda jugar un videojuego específico sin la ayuda de OpenAI Gym?

Rifat Bin Reza
fuente

Respuestas:

121

Vea mi banana-gympara un entorno extremadamente pequeño.

Crea nuevos entornos

Vea la página principal del repositorio:

https://github.com/openai/gym/blob/master/docs/creating-environments.md

Los pasos son:

  1. Cree un nuevo repositorio con una estructura de paquete PIP

Debe tener un aspecto como este

gym-foo/
  README.md
  setup.py
  gym_foo/
    __init__.py
    envs/
      __init__.py
      foo_env.py
      foo_extrahard_env.py

Para conocer su contenido, siga el enlace de arriba. Los detalles que no se mencionan allí son especialmente cómo foo_env.pydeberían verse algunas funciones . Ver ejemplos y gym.openai.com/docs/ ayuda. Aquí hay un ejemplo:

class FooEnv(gym.Env):
    metadata = {'render.modes': ['human']}

    def __init__(self):
        pass

    def _step(self, action):
        """

        Parameters
        ----------
        action :

        Returns
        -------
        ob, reward, episode_over, info : tuple
            ob (object) :
                an environment-specific object representing your observation of
                the environment.
            reward (float) :
                amount of reward achieved by the previous action. The scale
                varies between environments, but the goal is always to increase
                your total reward.
            episode_over (bool) :
                whether it's time to reset the environment again. Most (but not
                all) tasks are divided up into well-defined episodes, and done
                being True indicates the episode has terminated. (For example,
                perhaps the pole tipped too far, or you lost your last life.)
            info (dict) :
                 diagnostic information useful for debugging. It can sometimes
                 be useful for learning (for example, it might contain the raw
                 probabilities behind the environment's last state change).
                 However, official evaluations of your agent are not allowed to
                 use this for learning.
        """
        self._take_action(action)
        self.status = self.env.step()
        reward = self._get_reward()
        ob = self.env.getState()
        episode_over = self.status != hfo_py.IN_GAME
        return ob, reward, episode_over, {}

    def _reset(self):
        pass

    def _render(self, mode='human', close=False):
        pass

    def _take_action(self, action):
        pass

    def _get_reward(self):
        """ Reward is given for XY. """
        if self.status == FOOBAR:
            return 1
        elif self.status == ABC:
            return self.somestate ** 2
        else:
            return 0

Usa tu entorno

import gym
import gym_foo
env = gym.make('MyEnv-v0')

Ejemplos

  1. https://github.com/openai/gym-soccer
  2. https://github.com/openai/gym-wikinav
  3. https://github.com/alibaba/gym-starcraft
  4. https://github.com/endgameinc/gym-malware
  5. https://github.com/hackthemarket/gym-trading
  6. https://github.com/tambetm/gym-minecraft
  7. https://github.com/ppaquette/gym-doom
  8. https://github.com/ppaquette/gym-super-mario
  9. https://github.com/tuzzer/gym-maze
Martín Thoma
fuente
1
Me sale un feo " gym_fooimportado pero sin usar". ¿Cómo puedo deshacerme de él?
hipoglucido
@hipoglucido Para deshacerse de "gym_foo importado pero no utilizado" necesita decirle a su editor que ignore esta importación. Esto se hace comúnmente conimport gym_foo # noqa
Martin Thoma
5
Creo que debería decirse en voz alta que no necesita nada de esto, solo la clase derivada, ¿verdad? ¿Realmente no hay razón para crear un paquete si no está distingue a través del ecosistema del gimnasio?
mathtick
para el error de importación "gym_foo" después de seguir los pasos anteriores, realizar el pip install -e . comando ayudó a @hipoglucido
praneeth
17

Definitivamente es posible. Lo dicen en la página de Documentación, cerca del final.

https://gym.openai.com/docs

En cuanto a cómo hacerlo, debe buscar inspiración en el código fuente de los entornos existentes. Está disponible en github:

https://github.com/openai/gym#installation

La mayoría de sus entornos no los implementaron desde cero, sino que crearon una envoltura alrededor de los entornos existentes y le dieron a todos una interfaz que es conveniente para el aprendizaje por refuerzo.

Si desea hacer el suyo, probablemente debería ir en esta dirección e intentar adaptar algo que ya existe a la interfaz del gimnasio. Aunque existe una buena posibilidad de que esto lleve mucho tiempo.

Existe otra opción que puede resultar interesante para su propósito. Es el universo de OpenAI

https://universe.openai.com/

Se puede integrar con sitios web para que entrenes a tus modelos en juegos de kongregate, por ejemplo. Pero Universe no es tan fácil de usar como Gym.

Si es un principiante, mi recomendación es que comience con una implementación básica en un entorno estándar. Después de superar los problemas con los conceptos básicos, continúe con el incremento ...

Guilherme de Lazari
fuente
¿Qué pasa si se quiere crear un entorno para actividades no digitales como Tic-Tac-Toe o el cubo de Rubik donde los estados posibles son finitos y podrían estar bien definidos? ¿Debo producir una lista con todos los estados posibles? ¿Cómo podría una simulación averiguar cuáles son los estados de destino válidos a partir de un estado dado?
Hendrik