Condiciones de convergencia de algoritmos de iteración de políticas y valores

8

Los algoritmos de iteración de políticas y valores se pueden usar para resolver los problemas del proceso de decisión de Markov. Me cuesta entender las condiciones necesarias para la convergencia. Si la política óptima no cambia durante dos pasos (es decir, durante las iteraciones i e i + 1 ), ¿se puede concluir que los algoritmos han convergido? Si no, ¿cuándo?

algorithms markov-process convergence ELEC
fuente

3

Para responder a su pregunta, primero permítame escribir algunas importantes (in) igualdades.

Ecuación de optimización de Bellman:

$\begin{aligned} v_{*} (s) & = max_{a} E [R_{t + 1} + γ v_{*} (S_{t + 1}) ∣ S_{t} = s, A_{t} = a] \\ = max_{a} \sum_{s^{'}} p (s^{'} ∣ s, a) [r (s, a, s^{'}) + γ v_{*} (s^{'})] \end{aligned}$ $\begin{align} v_∗(s) &= \max_{a} \mathbb{E}[R_{t+1} + \gamma v_* (S_{t+1}) \mid S_t =s, A_t =a] \\ &= \max_{a} \sum_{s'}p(s'\mid s, a) \biggl[r(s, a, s') + \gamma v_∗(s')\biggl] \end{align}$
donde $v_*(.)$ es la función de valor óptimo.

Teorema de mejora de políticas ( Pit ):

Sea y cualquier par de políticas deterministas tales que, para todos los , Entonces la política debe ser tan bueno o mejor que . Es decir, debe obtener un rendimiento esperado mayor o igual de todos los estados . $\pi$ $\pi'$ $s \in S$ $q_\pi(s, \pi'(s)) \geq v_\pi(s)$ $\pi'$ $\pi$ $s \in S: v_{\pi'} (s) \geq v_\pi(s)$

(consulte la página 89 de Sutton & Barto, Aprendizaje de refuerzo: un libro de introducción )

Podemos mejorar una política en cada estado mediante la siguiente regla: $\pi$

\begin{aligned} π^{'} (s) & = \arg max_{a} q_{π} (s, a) \\ = \arg max_{a} \sum_{s^{'}} p (s^{'} ∣ s, a) [r (s, a, s^{'}) + γ v_{π} (s^{'})] \end{aligned}

$\begin{align} \pi'(s) &= \arg \max_{a}q_π(s, a)\\ &= \arg \max_{a} \sum_{s'}p(s' \mid s, a)\biggl[r(s, a, s') + \gamma v_\pi(s')\biggl] \end{align}$

Nuestra nueva política satisface la condición de Pit y es tan buena o mejor que . Si es tan bueno como, pero no mejor que , entonces para todos los . De nuestra definición de deducimos que: $\pi'$ $\pi$ $\pi'$ $\pi$ $v_{\pi'}(s)=v_{\pi}(s)$ $s$ $\pi'$

\begin{aligned} v_{π^{'}} (s) & = max_{a} E [R_{t + 1} + γ v_{π^{'}} (S_{t + 1}) ∣ S_{t} = s, A_{t} = a] \\ = max_{a} \sum_{s^{'}} p (s^{'} ∣ s, a) [r (s, a, s^{'}) + γ v_{π^{'}} (s^{'})] \end{aligned}

$\begin{align} v_{\pi'}(s)&=\max_{a} \mathbb{E}\biggl[R_{t+1} + \gamma v_{ \pi'}(S_{t+1}) \mid S_t =s, A_t =a \biggl]\\ &= \max_{a}\sum_{s'}p(s' \mid s, a) \biggl[r(s, a, s') + \gamma v_{π'}(s') \biggl] \end{align}$

Pero esta igualdad es la misma que la ecuación de optimización de Bellman, por lo que debe ser igual a . $v_{\pi'}$ $v_*$

De lo dicho anteriormente, es de esperar claro que si mejoramos una política y obtenemos la misma función de valor que teníamos antes, la nueva política debe ser una de las políticas óptimas. Para más información, ver Sutton y Barto (2012)

Jan Vainer
fuente

1

Tiene razón: la estimación de la función del valor actual o la estimación de la política actual pueden describir completamente el estado del algoritmo. Cada uno implica una próxima elección única para el otro. Del documento vinculado a continuación,

"La iteración de la política continúa hasta que ". $V_{n+1} = V_n, α_{n+1} = α_n$

https://editorialexpress.com/jrust/research/siam_dp_paper.pdf

eric_kernfeld
fuente

Condiciones de convergencia de algoritmos de iteración de políticas y valores

Respuestas: