Estoy codificando un modelo de aprendizaje de refuerzo con un agente PPO gracias a la muy buena biblioteca Tensorforce , construida sobre Tensorflow. La primera versión fue muy simple y ahora me estoy sumergiendo en un entorno más complejo donde todas las acciones no están disponibles en cada...