En el aprendizaje por refuerzo, ¿cuál es la diferencia entre la programación dinámica y el aprendizaje por diferencia temporal?
En el aprendizaje por refuerzo, ¿cuál es la diferencia entre la programación dinámica y el aprendizaje por diferencia temporal?
DP resuelve la política óptima o la función de valor por recursividad. Requiere conocimiento del proceso de decisión de Markov (MDP) o un modelo del mundo para que las recursiones puedan llevarse a cabo. Por lo general, se agrupa bajo "planificación" en lugar de "aprendizaje", en el sentido de que ya conoce el MDP y solo necesita averiguar qué hacer (de manera óptima).
TD no tiene modelo: no requiere el conocimiento de un modelo del mundo. Es iterativo y se basa en la simulación, y aprende mediante bootstrapping, es decir, el valor de un estado o acción se estima utilizando los valores de otros estados o acciones.
Para más información, ver: