Aprendizaje de refuerzo: una introducción. Segunda edición, en progreso ., Richard S. Sutton y Andrew G. Barto (c) 2012, pp. 67-68.
Resolver una tarea de aprendizaje de refuerzo significa, más o menos, encontrar una política que logre muchas recompensas a largo plazo. Para MDP finitos, podemos definir con precisión una política óptima de la siguiente manera. Las funciones de valor definen un orden parcial sobre las políticas. Una política se define como mejor o igual a una política si su rendimiento esperado es mayor o igual que el de , para todos los estados. En otras palabras, si y solo si , para todos los .Siempre hay al menos una política que es mejor o igual que todas las demás políticas. Esta es una política óptima.
¿Por qué siempre hay al menos una política que es mejor o igual a todas las demás políticas?
Respuestas:
Justo después de la parte citada, el mismo párrafo le dice en realidad qué es esta política: es la que toma las mejores medidas en cada estado. En un MDP, la acción que tomamos en un estado no afecta las recompensas por las acciones tomadas en otros, por lo que simplemente podemos maximizar la política estado por estado.
fuente
La existencia de una política óptima no es obvia. Para ver por qué, tenga en cuenta que la función de valor proporciona solo un orden parcial sobre el espacio de las políticas. Esto significa:
Dado que esto es solo un pedido parcial, podría haber un caso en el que dos políticas, y π 2 , no sean comparables. En otras palabras, hay subconjuntos del espacio de estado, S 1 y S 2 de manera que:π1 π2 S1 S2
In this case, we can't say that one policy is better than the other. But if we are dealing with finite MDPs with bounded value functions, then such a scenario never occurs. There is exactly one optimal value functions, though there might be multiple optimal policies.
For a proof of this, you need to understand the Banach Fixed Point theorem. For a detailed analysis, please refer.
fuente
Setting
We are considering in the setting of:
The optimal policy is defined as:
The question
How to prove that there exists at least oneπ∗ which satisfies (1) simultaneously for all s∈S ?
Outline of proof
Construct the optimal equation to be used as a temporary surrogate definition of optimal value function, which we will prove in step 2 that it is equivalent to the definition via Eq.(2).
Derive the equivalency of defining optimal value function via Eq.(4) and via Eq.(2).
(Note in fact we only need the necessity direction in the proof, because the sufficiency is obvious since we constructed Eq.(4) from Eq.(2).)
Prove that there is a unique solution to Eq.(4).
By step 2, we know that the solution obtained in step 3 is also a solution to Eq.(2), so it is an optimal value function.
From an optimal value function, we can recover an optimal policy by choosing the maximizer action in Eq.(4) for each state.
Details of the steps
1SinceV∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)] , we have Vπ∗(s)≤maxa∈AQπ∗(s,a) . And if there is any s~ such that Vπ∗≠maxa∈AQπ∗(s,a) , we can choose a better policy by maximizing Q∗(s,a)=Qπ∗(s,a) over a .
2(=>)
Follows by step 1.
(<=)
i.e. IfV~ satisfies V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)] , then V~(s)=V∗(s)=maxπVπ(s),∀s∈S .
Define the optimal Bellman operator as
a) IfV~≥TV~ , then V~≥V∗ .
b) IfV~≤TV~ , then V~≤V∗ .
Proof:
a)
For anyπ=(d1,d2,...) ,
By induction, for anyn ,
Since
Follows from step 1.
3The optimal Bellman operator is a contraction inL∞ norm, cf. [2].
Proof: For anys ,
Thus by Banach fixed point theorum it follows thatT has a unique fixed point.
References
[1] Puterman, Martin L.. “Markov Decision Processes : Discrete Stochastic Dynamic Programming.” (2016).
[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf
fuente
The policya=π(s) gives the best action a to execute in state s according to policy π , i.e. the value function vπ(s)=maxa∈Aqπ(s,a) is highest for action a in state s .
Thus there is always a policyπ∗ which gives equal or higher expected rewards than policy π . Note that this implies that π could be an/the optimal policy (π∗ ) itself.
fuente