El principal problema con el aprendizaje de TD y DP es que sus actualizaciones de pasos están sesgadas en las condiciones iniciales de los parámetros de aprendizaje. El proceso de arranque suele actualizar una función o búsqueda Q (s, a) en un valor sucesor Q (s ', a') utilizando las estimaciones actuales que se encuentran en este último. Claramente, al comienzo del aprendizaje, estas estimaciones no contienen información de recompensas reales o transiciones de estado.
Si el aprendizaje funciona según lo previsto, el sesgo se reducirá asintóticamente en múltiples iteraciones. Sin embargo, el sesgo puede causar problemas importantes, especialmente para los métodos fuera de la política (por ejemplo, Q Learning) y cuando se utilizan aproximadores de funciones. Es tan probable que esa combinación no converja que se llama la tríada mortal en Sutton y Bart.
Los métodos de control de Monte Carlo no sufren este sesgo, ya que cada actualización se realiza utilizando una muestra real de lo que Q (s, a) debería ser. Sin embargo, los métodos de Monte Carlo pueden sufrir una gran variación, lo que significa que se requieren más muestras para lograr el mismo grado de aprendizaje en comparación con TD.
En la práctica, el aprendizaje de TD parece aprender más eficientemente si se pueden superar los problemas con la tríada mortal . Los resultados recientes que utilizan la repetición de la experiencia y las copias "congeladas" de los estimadores brindan soluciones que abordan los problemas, por ejemplo, así es como se construyó el alumno DQN para los juegos de Atari.
λλ0 010 01
Si está utilizando un método basado en valores (en lugar de uno basado en políticas), el aprendizaje de TD generalmente se usa más en la práctica, o un método de combinación TD / MC como TD (λ) puede ser aún mejor.
En términos de "ventaja práctica" para MC? El aprendizaje de Monte Carlo es conceptualmente simple, robusto y fácil de implementar, aunque a menudo es más lento que el TD. Generalmente no lo usaría para un motor de controlador de aprendizaje (a menos que tenga prisa por implementar algo para un entorno simple), pero lo consideraría seriamente para la evaluación de políticas con el fin de comparar múltiples agentes, por ejemplo, eso se debe a que es un medida imparcial, que es importante para las pruebas.
Básicamente depende de su entorno.
TD explota la propiedad de Markov, es decir, los estados futuros de un proceso dependen únicamente del estado actual y, por lo tanto, generalmente es más eficiente usar TD en entornos de Markov.
MC no explota la propiedad de Markov, ya que basa las recompensas en todo el proceso de aprendizaje, que se presta a entornos que no son de Markov.
fuente