Preguntas etiquetadas con q-learning

21

¿Cuál es la relación entre Q-learning y los métodos de gradientes de políticas?

Según tengo entendido, Q-learning y gradientes de políticas (PG) son los dos enfoques principales utilizados para resolver problemas de RL. Mientras que Q-learning tiene como objetivo predecir la recompensa de una determinada acción tomada en un determinado estado, los gradientes de políticas...

12

¿Por qué DQN requiere dos redes diferentes?

Estaba pasando por esta implementación de DQN y veo que en la línea 124 y 125 se han inicializado dos redes Q diferentes. Según tengo entendido, creo que una red predice la acción apropiada y la segunda red predice los valores de Q objetivo para encontrar el error de Bellman. ¿Por qué no podemos...

reinforcement-learning q-learning dqn

12

¿Por qué el Q-learning no converge cuando se usa la aproximación de funciones?

El algoritmo de aprendizaje Q tabular está garantizado para encontrar la función QQQ óptima , Q∗Q∗Q^* , siempre que las siguientes condiciones (lascondiciones Robbins-Monro) con respecto a la tasa de aprendizaje se satisfacen ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) =...

reinforcement-learning q-learning deep-rl proofs function-approximation