¿Alguien sabe un ejemplo de Algoritmo Williams propuesto en el documento "Una clase de algoritmos de estimación de gradiente para el aprendizaje de refuerzo en redes neuronales" http://incompleteideas.net/sutton/williams-92.pdf
reinforcement-learning
Alex Gao
fuente
fuente
Respuestas:
De la conferencia RL de David Silver sobre los métodos de Gradiente de Políticas , la diapositiva 21 aquí es un pseudocódigo para el algoritmo de refuerzo episódico, que básicamente es un método basado en gradiente donde el rendimiento esperado se muestrea directamente del episodio (en lugar de estimarlo con algo aprendido) función). En este caso, el rendimiento esperado es en realidad la recompensa episódica total en ese paso, .Gt
initializeθ
para cada episodio { } muestreado de la política dos1,a1,r2...sT−1,aT−1,rT πθ
para t = 1 a T - 1 do
fin de
fin de
Este algoritmo sufre una gran variación porque las recompensas muestreadas pueden ser muy diferentes de un episodio a otro, por lo tanto, este algoritmo generalmente se usa con una línea base restada de la política. Aquí hay una explicación más detallada completa con ejemplos de código.
fuente
El algoritmo REINFORCE para el aprendizaje de refuerzo de gradiente de políticas es un algoritmo de gradiente estocástico simple. Funciona bien cuando los episodios son razonablemente cortos, por lo que se pueden simular muchos episodios. Los métodos de función de valor son mejores para episodios más largos porque pueden comenzar a aprender antes del final de un solo episodio.
fuente