El algoritmo de aprendizaje Q tabular está garantizado para encontrar la función óptima , , siempre que las siguientes condiciones (lascondiciones Robbins-Monro) con respecto a la tasa de aprendizaje se satisfacen
donde significa la tasa de aprendizaje utilizada al actualizar el valor asociado con el estado y la acción en el paso de tiempo , donde se supone que es verdadero, para todos los Estados y acciones .
Aparentemente, dado que , para que las dos condiciones sean verdaderas, todos los pares de estado-acción deben visitarse infinitamente a menudo: esto también se afirma en el libro Aprendizaje de refuerzo: una introducción , aparte del hecho de que esto debería ser ampliamente conocida y es la razón de ser del uso de la política -greedy (o políticas similares) durante el entrenamiento.
Una prueba completa que muestra que -learning encuentra la función óptima se puede encontrar en el artículo Convergence of Q-learning: A Simple Proof (por Francisco S. Melo). Utiliza conceptos como el mapeo de contracción para definir la Q óptima función (ver también ¿Cuál es el operador de Bellman en el aprendizaje por refuerzo? ), Que es un punto fijo de este operador de contracción. También usa un teorema (n. 2) con respecto al proceso aleatorio que converge a , dados algunos supuestos. (La prueba puede no ser fácil de seguir si no eres un matemático).
Si se usa una red neuronal para representar la función , haga las garantías de convergencia de -learning siguen vigentes? ¿Por qué (o no) converge Q-learning cuando se utiliza la aproximación de funciones? ¿Existe una prueba formal de tal no convergencia de -learning usando aproximación de funciones?
Estoy buscando diferentes tipos de respuestas, de aquellas que dan solo la intuición detrás de la no convergencia de -learning cuando se usa la aproximación de funciones a las que proporcionan una prueba formal (o un enlace a un documento con una prueba formal).
Respuestas:
Aquí hay una respuesta de descripción intuitiva:
La aproximación de funciones se puede hacer con cualquier función parametrizable. Considere el problema de un espacioQ(s,a) donde s son los reales positivos, a es 0 o 1 , y la verdadera función Q(s,0)=s2 es Q ( s , 0 ) = s 2 y Q(s,1)=2s2 , para todos los estados. Si su aproximador de función es Q(s,a)=m∗s+n∗a+b , no existen parámetros que puedan representar con precisión la verdaderafunciónQ (estamos tratando de ajustar una línea a una función cuadrática). En consecuencia, incluso si elige una buena tasa de aprendizaje y visita todos los estados infinitamente, su función de aproximación nunca convergerá a la verdaderafunciónQ
Y aquí hay un poco más de detalle:
Las redes neuronales son aproximadores de funciones universales . Esto significa que, si tiene una función, también puede crear una red neuronal que sea lo suficientemente profunda o amplia como para aproximar la función que ha creado a un grado arbitrariamente preciso. Sin embargo, cualquier topología de red específica que elija no podrá aprender todas las funciones, a menos que sea infinitamente amplia o infinitamente profunda. Esto es análogo a cómo, si elige los parámetros correctos, una línea puede ajustarse a dos puntos, pero no a 3 puntos. Si eliges una red que tiene un cierto ancho o profundidad finita, siempre puedo construir una función que necesite algunas neuronas más para ajustarse correctamente.
Los límites de Q-learning se mantienen solo cuando la representación de la función Q es exacta . Para ver por qué, suponga que elige aproximar su función Q con una interpolación lineal. Si la verdadera función puede tomar alguna forma, entonces claramente el error en nuestra interpolación puede hacerse ilimitadamente grande simplemente construyendo una función de función Q similar a XOR, y ninguna cantidad de tiempo extra o datos nos permitirán reducir este error . Si usa un aproximador de funciones, y la verdadera función que intenta ajustar no esalgo que la función puede aproximarse arbitrariamente bien, entonces su modelo no convergerá correctamente, incluso con una tasa de aprendizaje y una tasa de exploración bien elegidas. Usando la terminología de la teoría del aprendizaje computacional, podríamos decir que las pruebas de convergencia para el aprendizaje Q han asumido implícitamente que la verdadera función Q es un miembro del espacio de hipótesis del cual seleccionará su modelo.
fuente
Hasta donde sé, todavía es un problema abierto obtener una comprensión realmente clara y formal de por qué / cuándo tenemos una falta de convergencia, o, peor aún, a veces un peligro de divergencia. Normalmente se atribuye a la "tríada mortal" (ver 11.3 de la segunda edición del libro de Sutton y Barto), la combinación de:
Eso solo nos da una descripción (posiblemente no exhaustiva) de casos en los que tenemos una falta de convergencia y / o un peligro de divergencia, pero aún no nos dice por qué sucede en esos casos.
La respuesta de John ya proporciona la intuición de que parte del problema es simplemente que el uso de la aproximación de funciones puede conducir fácilmente a situaciones en las que su aproximador de funciones no sea lo suficientemente poderoso como para representar la verdaderaQ∗
Personalmente, creo que esta intuición ayuda a entender por qué el algoritmo no puede garantizar la convergencia a la solución óptima, pero aún intuitivamente espero que sea capaz de "converger" a alguna solución "estable" que sea la mejor aproximación posible dada Las restricciones inherentes a la representación de la función elegida. De hecho, esto es lo que observamos en la práctica cuando cambiamos a la capacitación sobre políticas (por ejemplo, Sarsa), al menos en el caso de los aproximadores de función lineal.
Finalmente, otro artículo (aún más reciente) que sospecho que es relevante para esta pregunta es Diagnóstico de cuellos de botella en algoritmos de aprendizaje profundo Q , pero desafortunadamente aún no he tenido tiempo de leerlo con suficiente detalle y resumirlo adecuadamente.
fuente