Estoy tratando de entender el aprendizaje por refuerzo y los procesos de decisión de Markov (MDP) en el caso de que se utilice una red neuronal como aproximador de funciones.
Estoy teniendo dificultades con la relación entre el MDP donde se explora el entorno de manera probabilística, cómo esto se remonta a los parámetros de aprendizaje y cómo se encuentran las soluciones / políticas finales.
¿Estoy en lo cierto al suponer que, en el caso del aprendizaje Q, la red neuronal actúa esencialmente como un aproximador de funciones para el valor q en sí mismo, tantos pasos en el futuro? ¿Cómo se correlaciona esto con los parámetros de actualización mediante retropropagación u otros métodos?
Además, una vez que la red ha aprendido cómo predecir la recompensa futura, ¿cómo encaja esto con el sistema en términos de tomar decisiones? Supongo que el sistema final no haría transiciones de estado probabilísticamente.
Gracias
fuente
Respuestas:
En Q-Learning, en cada paso usará observaciones y recompensas para actualizar su función de valor Q:
Tiene razón al decir que la red neuronal es solo una aproximación de función para la función de valor q.
En general, la parte de aproximación es solo un problema de aprendizaje supervisado estándar. Su red utiliza (s, a) como entrada y la salida es el valor q. A medida que se ajustan los valores q, debe entrenar estas nuevas muestras en la red. Aún así, encontrará algunos problemas a medida que utilice muestras correlacionadas y SGD sufrirá.
Si está mirando el documento DQN, las cosas son ligeramente diferentes. En ese caso, lo que están haciendo es poner muestras en un vector (reproducción de experiencia). Para enseñar a la red, toman muestras de las tuplas del vector, utilizando esta información para obtener un nuevo valor q que se enseña a la red. Cuando digo enseñanza, me refiero a ajustar los parámetros de red utilizando el descenso de gradiente estocástico o su enfoque de optimización favorito. Al no enseñar las muestras en el orden que recoge la política, las relaciona y eso ayuda en la capacitación.
Por último, para tomar una decisión sobre el estados , elige la acción que proporciona el valor q más alto:
Si su función de valor Q se ha aprendido completamente y el entorno es estacionario, está bien ser codicioso en este punto. Sin embargo, mientras aprende, se espera que explore. Hay varios enfoques siendoε -greedy una de las formas más fáciles y comunes.
fuente