Estoy tratando de entender el famoso artículo "Playing Atari with Deep Reinforcement Learning" ( pdf ). No estoy claro acerca de la diferencia entre una época y un episodio . En el algoritmo , el bucle externo está sobre episodios , mientras que en la figura 2 el eje x está etiquetado como epoch . En el contexto del aprendizaje por refuerzo, no tengo claro qué significa una época. ¿Es una época un ciclo externo alrededor del ciclo del episodio?
14
Respuestas:
En el documento que menciona, parecen ser más flexibles con respecto al significado de época, ya que solo definen una época como una cierta cantidad de actualizaciones de peso. Por lo tanto, puede ver una época como un bucle externo alrededor del bucle del episodio, como mencionó en la pregunta.
fuente