En el documento que presenta DQN " Playing Atari with Deep Reinforcement Learning ", mencionó:
Tenga en cuenta que cuando se aprende por repetición de experiencia, es necesario aprender fuera de la política (porque nuestros parámetros actuales son diferentes a los utilizados para generar la muestra), lo que motiva la elección de Q-learning.
No entendí bien lo que significa. ¿Qué sucede si usamos SARSA y recordamos la acción a'para la acción que debemos realizar s'en nuestra memoria, y luego tomamos muestras de él y actualizamos Q como lo hicimos en DQN? Y, ¿pueden los métodos de actor crítico (A3C, para específicos) usar la repetición de la experiencia? Si no, ¿por qué?
fuente

(s, a, r, s')y aprovecho esta experiencia para volver a reproducirla; Supongamos ahora que mi política actual dice que se debe tomara'ens', a continuación, marca queQ(s, a)debe serr + Q(s', a')y hacer descenso de gradiente. Creo que estoy haciendo experiencia reproduciendo en la política. ¿Hay algún problema con el proceso?David Silver aborda esto en esta video conferencia a las 46:10 http://videolectures.net/rldm2015_silver_reinforcement_learning/ : La repetición de la experiencia elige a de los usando la política vigente en ese momento, y esta es una de sus ventajas: permite la función Q aprender de las políticas anteriores, lo que rompe la correlación de los estados y políticas recientes y evita que la red se "bloquee" a un cierto modo de comportamiento.a s
fuente