Condiciones de convergencia de algoritmos de iteración de políticas y valores

8

Los algoritmos de iteración de políticas y valores se pueden usar para resolver los problemas del proceso de decisión de Markov. Me cuesta entender las condiciones necesarias para la convergencia. Si la política óptima no cambia durante dos pasos (es decir, durante las iteraciones i e i + 1 ), ¿se puede concluir que los algoritmos han convergido? Si no, ¿cuándo?

ELEC
fuente

Respuestas:

3

Para responder a su pregunta, primero permítame escribir algunas importantes (in) igualdades.

Ecuación de optimización de Bellman:

v(s)=maxaE[Rt+1+γv(St+1)St=s,At=a]=maxasp(ss,a)[r(s,a,s)+γv(s)]

donde v(.) es la función de valor óptimo.

Teorema de mejora de políticas ( Pit ):

Sea y cualquier par de políticas deterministas tales que, para todos los , Entonces la política debe ser tan bueno o mejor que . Es decir, debe obtener un rendimiento esperado mayor o igual de todos los estados . ππsSqπ(s,π(s))vπ(s)ππsS:vπ(s)vπ(s)

(consulte la página 89 de Sutton & Barto, Aprendizaje de refuerzo: un libro de introducción )

Podemos mejorar una política en cada estado mediante la siguiente regla:π

π(s)=argmaxaqπ(s,a)=argmaxasp(ss,a)[r(s,a,s)+γvπ(s)]

Nuestra nueva política satisface la condición de Pit y es tan buena o mejor que . Si es tan bueno como, pero no mejor que , entonces para todos los . De nuestra definición de deducimos que:ππππvπ(s)=vπ(s)sπ

vπ(s)=maxaE[Rt+1+γvπ(St+1)St=s,At=a]=maxasp(ss,a)[r(s,a,s)+γvπ(s)]

Pero esta igualdad es la misma que la ecuación de optimización de Bellman, por lo que debe ser igual a .vπv

De lo dicho anteriormente, es de esperar claro que si mejoramos una política y obtenemos la misma función de valor que teníamos antes, la nueva política debe ser una de las políticas óptimas. Para más información, ver Sutton y Barto (2012)

Jan Vainer
fuente
1

Tiene razón: la estimación de la función del valor actual o la estimación de la política actual pueden describir completamente el estado del algoritmo. Cada uno implica una próxima elección única para el otro. Del documento vinculado a continuación,

"La iteración de la política continúa hasta que ".Vn+1=Vn,αn+1=αn

https://editorialexpress.com/jrust/research/siam_dp_paper.pdf

eric_kernfeld
fuente