¿Por qué el Q-learning no converge cuando se usa la aproximación de funciones?

El algoritmo de aprendizaje Q tabular está garantizado para encontrar la función QQQ óptima , Q∗Q∗Q^* , siempre que las siguientes condiciones (lascondiciones Robbins-Monro) con respecto a la tasa de aprendizaje se satisfacen ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) =...