Bootstrapping en RL se puede leer como "usando uno o más valores estimados en el paso de actualización para el mismo tipo de valor estimado".
En la mayoría de las reglas de actualización de TD, verá algo como esta actualización SARSA (0):
Q(s,a)←Q(s,a)+α(Rt+1+γQ(s′,a′)−Q(s,a))
El valor es una estimación del valor verdadero de , y también se denomina objetivo TD. Es un método de arranque porque en parte estamos usando un valor Q para actualizar otro valor Q. Hay una pequeña cantidad de datos reales observados en forma de , la recompensa inmediata por el paso, y también en la transición de estado .Rt+1+γQ(s′,a′)Q(s,a)Rt+1s→s′
Contraste con Monte Carlo, donde la regla de actualización equivalente podría ser:
Q(s,a)←Q(s,a)+α(Gt−Q(s,a))
Donde Gt era la recompensa total con descuento en el momento t , suponiendo en esta actualización, que comenzó en el estado s , tomando la acción a , luego siguió la política actual hasta el final del episodio. Técnicamente, Gt=∑T−t−1k=0γkRt+k+1 donde Tes el paso de tiempo para la recompensa terminal y el estado. En particular, este valor objetivo no usa ninguna estimación existente (de otros valores Q), solo usa un conjunto de observaciones (es decir, recompensas) del entorno. Como tal, se garantiza que es una estimación imparcial del valor verdadero de Q(s,a) , ya que técnicamente es una muestra de Q(s,a) .
La principal desventaja de bootstrapping es que está sesgado hacia cualesquiera que sean sus valores iniciales de Q(s′,a′) (o V(s′) ). Es muy probable que estén equivocados, y el sistema de actualización puede ser inestable en su conjunto debido a demasiada autorreferencia y a la falta de datos reales; este es un problema con el aprendizaje fuera de la política (por ejemplo, Q-learning) que utiliza redes neuronales.
Sin bootstrapping, usando trayectorias más largas, a menudo hay una gran varianza , lo que, en la práctica, significa que necesita más muestras antes de que las estimaciones converjan. Entonces, a pesar de los problemas con bootstrapping, si se puede hacer que funcione, puede aprender significativamente más rápido, y a menudo se prefiere a los enfoques de Monte Carlo.
Puede comprometerse entre los métodos basados en muestras de Monte Carlo y los métodos TD de un solo paso que arrancan utilizando una combinación de resultados de diferentes trayectorias de longitud. Esto se llama aprendizaje TD ( λ ) , y hay una variedad de métodos específicos como SARSA ( λ ) o Q ( λ ).
En general, bootstrapping en RL significa que actualiza un valor basado en algunas estimaciones y no en algunos valores exactos . P.ej
Actualizaciones incrementales de evaluación de políticas de Monte Carlo:
TD (0) Actualizaciones de evaluación de políticas:
En TD (0), el retorno a partir del estado se estima (arrancado) por R t + 1 + γ V ( S t + 1 ) mientras que en MC usamos el retorno exacto G t .s Rt+1+γV(St+1) Gt
fuente