El sitio web de inteligencia artificial define el aprendizaje fuera de política y dentro de política de la siguiente manera:
"Un alumno fuera de la política aprende el valor de la política óptima independientemente de las acciones del agente. Q-learning es un alumno fuera de la política. Un alumno dentro de la política aprende el valor de la política que lleva a cabo el agente, incluidos los pasos de exploración ".
Me gustaría pedirle una aclaración al respecto, porque no parecen hacer ninguna diferencia para mí. Ambas definiciones parecen ser idénticas. Lo que realmente entendí es el aprendizaje sin modelos y basado en modelos, y no sé si tienen algo que ver con los en cuestión.
¿Cómo es posible que la política óptima se aprenda independientemente de las acciones del agente? ¿No se aprende la política cuando el agente realiza las acciones?
Respuestas:
Primero que nada, no hay razón para que un agente tenga que hacer la acción codiciosa ; Los agentes pueden explorar o pueden seguir opciones . Esto no es lo que separa el aprendizaje dentro de la política del aprendizaje fuera de la política.
La razón por la que Q-learning no está en la política es porque actualiza sus valores Q usando el valor Q del siguiente estado y la acción codiciosa . En otras palabras, estima el rendimiento (recompensa futura con descuento total) para los pares de acción estatal asumiendo que se siguió una política codiciosa a pesar de que no está siguiendo una política codiciosa.s′ a ′ a′
La razón por la que SARSA está dentro de la política es porque actualiza sus valores Q usando el valor Q del siguiente estado y la acción de la política actual . Estima el rendimiento de los pares de acción estatal, suponiendo que se siga la política actual.s′ a′′
La distinción desaparece si la política actual es una política codiciosa. Sin embargo, dicho agente no sería bueno ya que nunca explora.
¿Has mirado el libro disponible gratis en línea? Richard S. Sutton y Andrew G. Barto. Aprendizaje de refuerzo: una introducción. Segunda edición, MIT Press, Cambridge, MA, 2018.
fuente
Los métodos basados en políticas estiman el valor de una política mientras la usan para control.
En los métodos fuera de política , la política utilizada para generar comportamiento, llamada política de comportamiento , puede no estar relacionada con la política que se evalúa y mejora, llamada política de estimación .
Una ventaja de esta separación es que la política de estimación puede ser determinista (por ejemplo, codiciosa), mientras que la política de comportamiento puede continuar muestreando todas las acciones posibles.
Para más detalles, vea las secciones 5.4 y 5.6 del libro Refuerzo de aprendizaje: Una introducción de Barto y Sutton, primera edición.
fuente
La diferencia entre los métodos fuera de política y dentro de política es que con el primero no necesita seguir ninguna política específica, su agente podría incluso comportarse al azar y, a pesar de esto, los métodos fuera de política aún pueden encontrar la política óptima. Por otro lado, los métodos sobre políticas dependen de la política utilizada. En el caso de Q-Learning, que está fuera de la política, encontrará la política óptima independientemente de la política utilizada durante la exploración, sin embargo, esto es cierto solo cuando visita los diferentes estados suficientes veces. Puede encontrar en el documento original de Watkins la prueba real que muestra esta muy buena propiedad de Q-Learning. Sin embargo, existe una compensación y es decir, los métodos fuera de la política tienden a ser más lentos que los métodos dentro de la política. Aquí un enlace con otro resumen interesante de las propiedades de ambos tipos de métodos
fuente
En primer lugar, ¿qué significa realmente la política (denotada por )? La política especifica una acción , que se toma en un estado (o más precisamente, es una probabilidad, que una acción se toma en un estado ).π
a s π a s
Segundo, ¿qué tipos de aprendizaje tenemos?Q(s,a) a s
π π(a|s)
1. Evaluar la función : predecir la suma de futuras recompensas con descuento, donde es una acción es un estado. 2. Encuentre (en realidad, ), que produce una recompensa máxima.
De vuelta a la pregunta original. El aprendizaje dentro y fuera de la política solo se relaciona con la primera tarea: evaluar .Q(s,a)
La diferencia es esta:Q(s,a) π
Q(s,a)
en el aprendizaje sobre políticas , la función se aprende de las acciones, tomamos usando nuestra política actual . En el aprendizaje fuera de la política , la función se aprende de diferentes acciones (por ejemplo, acciones aleatorias). ¡Ni siquiera necesitamos una política en absoluto!
Esta es la función de actualización para el algoritmo SARSA en política : , donde es la acción, que se realizó de acuerdo con la política .Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)−Q(s,a)) a′ π
Compárelo con la función de actualización para el algoritmo de aprendizaje de Q fuera de política : , donde son todas las acciones que se probaron en el estado .Q(s,a)←Q(s,a)+α(r+γmaxa′Q(s′,a′)−Q(s,a)) a′ s′
fuente
Del libro de Sutton: "El enfoque basado en políticas en la sección anterior es en realidad un compromiso: aprende valores de acción no para la política óptima, sino para una política casi óptima que aún explora. Un enfoque más directo es usar dos políticas , una que se aprende y que se convierte en la política óptima, y una que es más exploratoria y se usa para generar comportamiento. La política que se está conociendo se llama política objetivo, y la política utilizada para generar comportamiento se llama política de comportamiento. En este caso, decimos que el aprendizaje proviene de los datos "o↵" de la política objetivo, y el proceso general se denomina aprendizaje de la política ".
fuente