Trusted Region Policy Optimization (TRPO) y Proximal Policy Optimization (PPO) son dos algoritmos de gradientes de políticas de vanguardia.
Al usar una sola acción continua, normalmente, usaría alguna distribución de probabilidad (por ejemplo, gaussiana) para la función de pérdida. La versión aproximada es:
donde es la ventaja de las recompensas, se caracteriza por y que sale de la red neuronal como en el entorno Pendulum aquí: https://github.com/leomzhong/DeepReinforcementLearningCourse/blob/69e573cd88faec7e9cf900da8eeef08c57dec0f /hw4/main.py .
El problema es que no puedo encontrar ningún documento sobre 2+ acciones continuas utilizando gradientes de políticas (no métodos de actor crítico que utilizan un enfoque diferente al transferir el gradiente de la función Q).
¿Sabes cómo hacer esto usando TRPO para 2 acciones continuas en el entorno LunarLander ?
¿Es correcto el siguiente enfoque para la función de pérdida de gradiente de política?
fuente