Para responder a su pregunta, primero permítame escribir algunas importantes (in) igualdades.
Ecuación de optimización de Bellman:
v∗(s)=maxaE[Rt+1+γv∗(St+1)∣St=s,At=a]=maxa∑s′p(s′∣s,a)[r(s,a,s′)+γv∗(s′)]
donde v∗(.) es la función de valor óptimo.
Teorema de mejora de políticas ( Pit ):
Sea y cualquier par de políticas deterministas tales que, para todos los ,
Entonces la política debe ser tan bueno o mejor que . Es decir, debe obtener un rendimiento esperado mayor o igual de todos los estados . ππ′s∈Sqπ(s,π′(s))≥vπ(s)π′πs∈S:vπ′(s)≥vπ(s)
(consulte la página 89 de Sutton & Barto, Aprendizaje de refuerzo: un libro de introducción )
Podemos mejorar una política en cada estado mediante la siguiente regla:π
π′(s)=argmaxaqπ(s,a)=argmaxa∑s′p(s′∣s,a)[r(s,a,s′)+γvπ(s′)]
Nuestra nueva política satisface la condición de Pit y es tan buena o mejor que . Si es tan bueno como, pero no mejor que , entonces para todos los . De nuestra definición de deducimos que:π′ππ′πvπ′(s)=vπ(s)sπ′
vπ′(s)=maxaE[Rt+1+γvπ′(St+1)∣St=s,At=a]=maxa∑s′p(s′∣s,a)[r(s,a,s′)+γvπ′(s′)]
Pero esta igualdad es la misma que la ecuación de optimización de Bellman, por lo que debe ser igual a .vπ′v∗
De lo dicho anteriormente, es de esperar claro que si mejoramos una política y obtenemos la misma función de valor que teníamos antes, la nueva política debe ser una de las políticas óptimas. Para más información, ver Sutton y Barto (2012)