Preguntas etiquetadas con temporal-difference

¿Cuándo se prefieren los métodos de Monte Carlo sobre los de diferencia temporal?

Últimamente he estado investigando mucho sobre el aprendizaje por refuerzo. Seguí el aprendizaje de refuerzo de Sutton y Barto : una introducción para la mayor parte de esto. Sé qué son los procesos de decisión de Markov y cómo se puede utilizar el aprendizaje de programación dinámica (DP), Monte...

monte-carlo reinforcement-learning temporal-difference