He estado estudiando problemas de aprendizaje de refuerzo jerárquico, y aunque muchos documentos proponen algoritmos para aprender una política, todos parecen asumir que conocen de antemano una estructura gráfica que describe la jerarquía de las acciones en el dominio. Por ejemplo, El método MAXQ para el aprendizaje de refuerzo jerárquico de Dietterich describe un gráfico de acciones y subtareas para un dominio de Taxi simple, pero no cómo se descubrió este gráfico. ¿Cómo aprendería la jerarquía de este gráfico, y no solo la política?
En otras palabras, usando el ejemplo del artículo, si un Taxi estuviera conduciendo sin rumbo, con poco conocimiento previo del mundo, y solo las acciones primitivas de mover hacia la izquierda / mover hacia la derecha, etc., ¿cómo aprendería acciones de nivel superior como ir-recoger-pasajero? Si estoy entendiendo el documento correctamente (y puede que no lo sea), propone cómo actualizar la política para estas acciones de alto nivel, pero no cómo se forman para empezar.
fuente