En el documento que presenta DQN " Playing Atari with Deep Reinforcement Learning ", mencionó:
Tenga en cuenta que cuando se aprende por repetición de experiencia, es necesario aprender fuera de la política (porque nuestros parámetros actuales son diferentes a los utilizados para generar la muestra), lo que motiva la elección de Q-learning.
No entendí bien lo que significa. ¿Qué sucede si usamos SARSA y recordamos la acción a'
para la acción que debemos realizar s'
en nuestra memoria, y luego tomamos muestras de él y actualizamos Q como lo hicimos en DQN? Y, ¿pueden los métodos de actor crítico (A3C, para específicos) usar la repetición de la experiencia? Si no, ¿por qué?
fuente
(s, a, r, s')
y aprovecho esta experiencia para volver a reproducirla; Supongamos ahora que mi política actual dice que se debe tomara'
ens'
, a continuación, marca queQ(s, a)
debe serr + Q(s', a')
y hacer descenso de gradiente. Creo que estoy haciendo experiencia reproduciendo en la política. ¿Hay algún problema con el proceso?David Silver aborda esto en esta video conferencia a las 46:10 http://videolectures.net/rldm2015_silver_reinforcement_learning/ : La repetición de la experiencia elige a de los usando la política vigente en ese momento, y esta es una de sus ventajas: permite la función Q aprender de las políticas anteriores, lo que rompe la correlación de los estados y políticas recientes y evita que la red se "bloquee" a un cierto modo de comportamiento.a s
fuente