Me parece que la función puede expresarse fácilmente por la función y, por lo tanto, la función parece superflua. Sin embargo, soy nuevo en el aprendizaje por refuerzo, así que supongo que algo está mal.
Definiciones
El aprendizaje Q y V está en el contexto de los procesos de decisión de Markov . Un MDP es una tupla de 5 con
- es un conjunto de estados (típicamente finito)
- es un conjunto de acciones (típicamente finito)
- es la probabilidad de pasar del estado al estado con la acción .
- es la recompensa inmediata después de pasar del estado al estado con la acción . (Me parece que por lo general sólo materia).
- se llama factor de descuento y determina si uno se enfoca en recompensas inmediatas ( ), la recompensa total ( ) o alguna compensación.
Una política , según Reinforcement Learning: An Introduction de Sutton and Barto es una función (esto podría ser probabilístico).
Según las diapositivas de Mario Martins , la función es y la función Q es
Mis pensamientos
Los estados de función lo que el valor total esperado (no recompensa!) De un estado bajo la política de es.
La función establece cuál es el valor de un estado una acción bajo la política .
Esto significa,
¿Correcto? Entonces, ¿por qué tenemos la función de valor? (Supongo que mezclé algo)
fuente
Tienes razón, la función te da el valor de un estado y te da el valor de una acción en un estado (siguiendo una política dada ). Encontré la explicación más clara de Q-learning y cómo funciona en el libro de Tom Mitchell "Machine Learning" (1997), cap. 13, que es descargable. se define como la suma de una serie infinita, pero aquí no es importante. Lo que importa es que la función se define comoV Q π V Q
Esto puede parecer una recursión extraña al principio porque expresa el valor Q de una acción en el estado actual en términos del mejor valor Q de un estado sucesor , pero tiene sentido cuando observa cómo lo utiliza el proceso de copia de seguridad: la exploración el proceso se detiene cuando alcanza un estado objetivo y recoge la recompensa, que se convierte en el valor Q de esa transición final. Ahora, en un episodio de entrenamiento posterior, cuando el proceso de exploración alcanza ese estado predecesor, el proceso de respaldo utiliza la igualdad anterior para actualizar el valor Q actual del estado predecesor. La próxima vez esse visita al predecesor el valor Q de ese estado se actualiza, y así sucesivamente (el libro de Mitchell describe una forma más eficiente de hacerlo almacenando todos los cálculos y repitiéndolos más adelante). Siempre que se visite cada estado infinitamente, este proceso eventualmente calcula la Q óptima
A veces verá una tasa de aprendizaje aplicada para controlar cuánto Q realmente se actualiza: Aviso ahora que la actualización del valor de Q no depende del valor Q actual. El libro de Mitchell también explica por qué es eso y por qué necesita : es para MDP estocásticos. Sin , cada vez que se intentaba un estado, un par de acciones habría una recompensa diferente, por lo que la función Q ^ rebotaría por todo el lugar y no convergería. está ahí para que, como el nuevo conocimiento solo se acepte en parte.α Q(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a)) α α α α se establece alto para que la corriente (en su mayoría valores aleatorios) de Q sea menos influyente disminuye a medida que avanza el entrenamiento, de modo que las nuevas actualizaciones tienen cada vez menos influencia, y ahora Q learning convergeα
fuente
Aquí hay una explicación más detallada de la relación entre el valor del estado y el valor de la acción en la respuesta de Aaron. Primero echemos un vistazo a las definiciones de función de valor y función de valor de acción en política : donde es el retorno en el tiempo . La relación entre estas dos funciones de valor se puede derivar comoπ vπ(s)=E[Gt|St=s]qπ(s,a)=E[Gt|St=s,At=a] Gt=∑∞k=0γkRt+k+1 t vπ(s)=E[Gt|St=s]=∑gtp(gt|St=s)gt=∑gt∑ap(gt,a|St=s)gt=∑ap(a|St=s)∑gtp(gt|St=s,At=a)gt=∑ap(a|St=s)E[Gt|St=s,At=a]=∑ap(a|St=s)qπ(s,a)
La ecuación anterior es importante. Describe la relación entre dos funciones fundamentales de valor en el aprendizaje por refuerzo. Es válido para cualquier política. Además, si tenemos una política determinista , entonces . Espero que esto te sirva de ayuda. (para ver más sobre la ecuación de optimización de Bellman https: //stats.stackexchange.vπ(s)=qπ(s,π(s)) )
fuente
La función de valor es una formulación abstracta de utilidad. Y la función Q se usa para el algoritmo Q-learning.
fuente