¿Cuándo se prefieren los métodos de Monte Carlo sobre los de diferencia temporal?
Últimamente he estado investigando mucho sobre el aprendizaje por refuerzo. Seguí el aprendizaje de refuerzo de Sutton y Barto : una introducción para la mayor parte de esto. Sé qué son los procesos de decisión de Markov y cómo se puede utilizar el aprendizaje de programación dinámica (DP), Monte...