¿Por qué la tasa de descuento en el algoritmo REINFORCE aparece dos veces?
Estaba leyendo el libro Aprendizaje de refuerzo: una introducción de Richard S. Sutton y Andrew G. Barto (borrador completo, 5 de noviembre de 2017). En la página 271, se presenta el pseudocódigo para el método episódico de gradiente de políticas de Montecarlo. Mirando este pseudocódigo, no puedo...