¿Cuál es la relación entre Q-learning y los métodos de gradientes de políticas?

21

Según tengo entendido, Q-learning y gradientes de políticas (PG) son los dos enfoques principales utilizados para resolver problemas de RL. Mientras que Q-learning tiene como objetivo predecir la recompensa de una determinada acción tomada en un determinado estado, los gradientes de políticas predicen directamente la acción en sí.

Sin embargo, ambos enfoques me parecen idénticos, es decir, predecir la recompensa máxima por una acción (Q-learning) es equivalente a predecir la probabilidad de realizar la acción directamente (PG). ¿Es la diferencia en la forma en que la pérdida se propaga hacia atrás?

Tejas Ramdas
fuente

Respuestas:

20

Sin embargo, ambos enfoques me parecen idénticos, es decir, predecir la recompensa máxima para una acción (Q-learning) es equivalente a predecir la probabilidad de realizar la acción directamente (PG).

Ambos métodos son impulsados ​​teóricamente por la construcción del Proceso de Decisión de Markov , y como resultado usan notación y conceptos similares. Además, en entornos solucionables simples, debe esperar que ambos métodos den como resultado las mismas políticas óptimas, o al menos equivalentes.

Sin embargo, en realidad son diferentes internamente. Las diferencias más fundamentales entre los enfoques radican en cómo abordan la selección de acciones, tanto durante el aprendizaje como en el producto (la política aprendida). En Q-learning, el objetivo es aprender una única acción determinista a partir de un conjunto discreto de acciones al encontrar el valor máximo. Con gradientes de políticas y otras búsquedas directas de políticas, el objetivo es aprender un mapa del estado a la acción, que puede ser estocástico, y funciona en espacios de acción continua.

Como resultado, los métodos de gradiente de políticas pueden resolver problemas que los métodos basados ​​en valores no pueden:

  • Amplio y continuo espacio de acción. Sin embargo, con los métodos basados ​​en valores, esto aún puede aproximarse con discretización, y esta no es una mala elección, ya que la función de mapeo en el gradiente de políticas tiene que ser algún tipo de aproximación en la práctica.

  • Políticas estocásticas. Un método basado en el valor no puede resolver un entorno donde la política óptima es estocástica y requiere probabilidades específicas, como Tijera / Papel / Piedra. Esto se debe a que no hay parámetros entrenables en el aprendizaje Q que controlen las probabilidades de acción, la formulación del problema en el aprendizaje TD supone que un agente determinista puede ser óptimo.

Sin embargo, los métodos basados ​​en valores como Q-learning también tienen algunas ventajas:

  • pag(uns,θ)θ

  • Velocidad. Los métodos de aprendizaje de TD que arrancan son a menudo mucho más rápidos para aprender una política que los métodos que deben tomar muestras del entorno para evaluar el progreso.

Hay otras razones por las que puede interesarle usar uno u otro enfoque:

  • Es posible que desee conocer el rendimiento previsto mientras se ejecuta el proceso, para ayudar a otros procesos de planificación asociados con el agente.

  • La representación estatal del problema se presta más fácilmente a una función de valor o una función de política. Una función de valor puede tener una relación muy simple con el estado y la función de política es muy compleja y difícil de aprender, o viceversa .

Algunos solucionadores de RL de última generación en realidad usan ambos enfoques juntos, como Actor-Critic. Esto combina fortalezas de valor y métodos de gradiente de políticas.

Neil Slater
fuente
¿Qué quieres decir cuando dices que actor-crítico combina la fuerza de ambos métodos? Según tengo entendido, el actor evalúa la mejor acción a tomar según el estado, y el crítico evalúa el valor de ese estado, luego le da una recompensa al actor. Tratarlos como una sola unidad de "Política" todavía me parece un gradiente de política. ¿Por qué es esto realmente como Q-learning?
Gulzar
1
@Guizar: El crítico aprende usando un método basado en valores (por ejemplo, Q-learning). Entonces, en general, actor-crítico es una combinación de un método de valor y un método de gradiente de políticas, y se beneficia de la combinación. Una mejora notable sobre PG "vainilla" es que los gradientes se pueden evaluar en cada paso, en lugar de al final de cada episodio. Si está buscando una respuesta más detallada sobre este tema, debe hacer una pregunta en el sitio.
Neil Slater
@Guizar: Realmente rasco el (por ejemplo, Q-learning) ya que me estoy confundiendo entre el actor-crítico de ventaja (que ajusta la línea de base para basarse en valores de acción) y el crítico, que generalmente es un valor de estado más simple. Sin embargo, el resto de mi descripción sigue siendo la misma, la crítica generalmente se actualiza utilizando métodos TD basados ​​en valores, de los cuales el aprendizaje Q también es un ejemplo.
Neil Slater