En robótica, la técnica de aprendizaje de refuerzo se utiliza para encontrar el patrón de control de un robot. Desafortunadamente, la mayoría de los métodos de gradiente de políticas están sesgados estadísticamente, lo que podría llevar al robot a una situación insegura, consulte la página 2 en Jan Peters y Stefan Schaal: aprendizaje de refuerzo de habilidades motoras con gradientes de políticas, 2008
Con el aprendizaje motor primitivo, es posible superar el problema porque la optimización de parámetros de gradiente de política dirige los pasos de aprendizaje hacia la meta.
cita: "Si la estimación del gradiente es imparcial y las tasas de aprendizaje cumplen la suma (a) = 0, se garantiza que el proceso de aprendizaje converge al menos a un mínimo local [...] Por lo tanto, necesitamos estimar el gradiente de la política solo a partir de los datos generados durante la ejecución de una tarea. ”(Página 4 del mismo documento)
En la tarea para el problema 1 de la clase RL de Berkeley , le pide que demuestre que el gradiente de la política sigue siendo imparcial si la línea base restada es una función del estado en el paso de tiempo t.
Estoy luchando sobre cuál podría ser el primer paso de tal prueba. ¿Alguien me puede apuntar en la dirección correcta? Mi pensamiento inicial fue utilizar de alguna manera la ley de la expectativa total para condicionar la expectativa de b (st) a T, pero no estoy seguro. Gracias por adelantado :)
fuente
Respuestas:
Usando la ley de expectativas iteradas uno tiene:
escrito con integrales y moviendo el gradiente dentro (linealidad) obtienes
fuente
Parece que la tarea debía entregarse dos días antes de la redacción de esta respuesta, pero en caso de que aún sea relevante de alguna manera, las notas relevantes de la clase (que habrían sido útiles si se hubieran proporcionado en la pregunta junto con la tarea) están aquí .
Este ejercicio es una preparación para el próximo paso en la tarea y se basa únicamente en la revisión de CS189, el curso de Introducción al aprendizaje automático de Burkeley, que no contiene la Ley de Expectativa Total en su programa o notas de clase.
Toda la información relevante está en el enlace de arriba para las notas de clase y solo requiere álgebra intermedia.
fuente