¿Por qué la línea de base está condicionada al estado en algún momento imparcial?

9

En robótica, la técnica de aprendizaje de refuerzo se utiliza para encontrar el patrón de control de un robot. Desafortunadamente, la mayoría de los métodos de gradiente de políticas están sesgados estadísticamente, lo que podría llevar al robot a una situación insegura, consulte la página 2 en Jan Peters y Stefan Schaal: aprendizaje de refuerzo de habilidades motoras con gradientes de políticas, 2008

Con el aprendizaje motor primitivo, es posible superar el problema porque la optimización de parámetros de gradiente de política dirige los pasos de aprendizaje hacia la meta.

cita: "Si la estimación del gradiente es imparcial y las tasas de aprendizaje cumplen la suma (a) = 0, se garantiza que el proceso de aprendizaje converge al menos a un mínimo local [...] Por lo tanto, necesitamos estimar el gradiente de la política solo a partir de los datos generados durante la ejecución de una tarea. ”(Página 4 del mismo documento)

En la tarea para el problema 1 de la clase RL de Berkeley , le pide que demuestre que el gradiente de la política sigue siendo imparcial si la línea base restada es una función del estado en el paso de tiempo t.

θt=1TE(st,at)p(st,at)[b(st)]=0

Estoy luchando sobre cuál podría ser el primer paso de tal prueba. ¿Alguien me puede apuntar en la dirección correcta? Mi pensamiento inicial fue utilizar de alguna manera la ley de la expectativa total para condicionar la expectativa de b (st) a T, pero no estoy seguro. Gracias por adelantado :)

enlace al png original de la ecuación

Laura C
fuente
Bienvenido a SE: AI! (Me tomé la libertad de convertir la ecuación a MathJax. El .png original está vinculado en la parte inferior).
DukeZhou
2
Realmente no tengo mucho tiempo para escribir las ecuaciones exactas y formatearlo (tal vez más tarde si aún no se responde) con LaTeX, pero aquí hay una pista. Desea tener que la suma no depende de la política, por lo que la derivada sería 0. Entonces, de alguna manera, intenta expresar las cosas usando la política p (s, a). La respuesta por cierto también se puede encontrar en el libro de introducción de RL de Sutton en el capítulo de gradiente de políticas.
Hai Nguyen
1
¡Muchas gracias! Usaré esa pista para comenzar, así como gracias por decirme que está en Sutton RL. ¡Estoy leyendo ese libro y es excelente!
Laura C
@LauraC si encuentra la respuesta antes que nadie, por favor regrese y publique como respuesta formal aquí (a la gente definitivamente le gusta esta pregunta :)
DukeZhou
He agregado información de contexto para la pregunta.
Manuel Rodríguez

Respuestas:

7

Usando la ley de expectativas iteradas uno tiene:

θt=1TE(st,at)p(st,at)[b(st)]=θt=1TEstp(st)[Eatπθ(at|st)[b(st)]]=

escrito con integrales y moviendo el gradiente dentro (linealidad) obtienes

=t=1Tstp(st)(atθb(st)πθ(at|st)dat)dst=

θb(st)at

=t=1Tstp(st)b(st)θ(atπθ(at|st)dat)dst=

πθ(at|st)atst1

=t=1Tstp(st)b(st)θ1dst=

θ1=0

Andrei Poehlmann
fuente
1

Parece que la tarea debía entregarse dos días antes de la redacción de esta respuesta, pero en caso de que aún sea relevante de alguna manera, las notas relevantes de la clase (que habrían sido útiles si se hubieran proporcionado en la pregunta junto con la tarea) están aquí .

Eτpθ(τ)

t=1TEτpθ(τ)[θlogπθ(at|st)(b(st))]=0

πθ(at|st)

Este ejercicio es una preparación para el próximo paso en la tarea y se basa únicamente en la revisión de CS189, el curso de Introducción al aprendizaje automático de Burkeley, que no contiene la Ley de Expectativa Total en su programa o notas de clase.

Toda la información relevante está en el enlace de arriba para las notas de clase y solo requiere álgebra intermedia.

Douglas Daseeco
fuente