Aprender la estructura de una tarea de refuerzo jerárquico

He estado estudiando problemas de aprendizaje de refuerzo jerárquico, y aunque muchos documentos proponen algoritmos para aprender una política, todos parecen asumir que conocen de antemano una estructura gráfica que describe la jerarquía de las acciones en el dominio. Por ejemplo, El método MAXQ para el aprendizaje de refuerzo jerárquico de Dietterich describe un gráfico de acciones y subtareas para un dominio de Taxi simple, pero no cómo se descubrió este gráfico. ¿Cómo aprendería la jerarquía de este gráfico, y no solo la política?

En otras palabras, usando el ejemplo del artículo, si un Taxi estuviera conduciendo sin rumbo, con poco conocimiento previo del mundo, y solo las acciones primitivas de mover hacia la izquierda / mover hacia la derecha, etc., ¿cómo aprendería acciones de nivel superior como ir-recoger-pasajero? Si estoy entendiendo el documento correctamente (y puede que no lo sea), propone cómo actualizar la política para estas acciones de alto nivel, pero no cómo se forman para empezar.

machine-learning Cerin
fuente

Respuestas:

De acuerdo con este documento

En el estado actual de la técnica, el diseñador de un sistema RL generalmente utiliza conocimientos previos sobre la tarea para agregar un conjunto específico de opciones al conjunto de acciones primitivas disponibles para el agente.

Consulte también la sección 6.2 Jerarquías de tareas de aprendizaje en el mismo documento.

La primera idea que se me ocurre es que si no conoce las jerarquías de tareas, debe comenzar con el aprendizaje de refuerzo no jerárquico y tratar de descubrir la estructura después o mientras aprende, es decir, está tratando de generalizar su modelo. Para mí, esta tarea es similar a la técnica de fusión de modelos bayesianos para HMM (por ejemplo, vea esta tesis )

Alexey Kalmykov
fuente