¿La política óptima es siempre estocástica si el entorno también es estocástico?

10

¿La política óptima es siempre estocástica (es decir, un mapa de estados a una distribución de probabilidad sobre acciones) si el entorno también es estocástico?

Intuitivamente, si el entorno es determinista (es decir, si el agente está en un estado s y toma la acción a , entonces el siguiente estado s es siempre el mismo, sin importar el paso temporal), entonces la política óptima también debe ser determinista (es decir, debe ser un mapa de estados a acciones, y no a una distribución de probabilidad sobre acciones).

nbro
fuente
Aquí hay una pregunta relacionada: mathoverflow.net/q/44677 .
nbro

Respuestas:

6

¿La política óptima es siempre estocástica (es decir, un mapa de estados a una distribución de probabilidad sobre acciones) si el entorno también es estocástico?

No.

Una política óptima es generalmente determinista a menos que:

  • Falta información importante sobre el estado (un POMDP). Por ejemplo, en un mapa donde el agente no puede saber su ubicación exacta o recordar estados anteriores, y el estado que se le da no es suficiente para desambiguar entre ubicaciones. Si el objetivo es llegar a una ubicación final específica, la política óptima puede incluir algunos movimientos aleatorios para evitar quedarse atascado. Tenga en cuenta que el entorno en este caso podría ser determinista (desde la perspectiva de alguien que puede ver todo el estado), pero aún así podría requerir una política estocástica para resolverlo.

  • Hay algún tipo de escenario de teoría de juegos minimax, donde una política determinista puede ser castigada por el medio ambiente u otro agente. Piense en tijeras / papel / piedra o dilema del prisionero.

Intuitivamente, si el entorno es determinista (es decir, si el agente está en un estado 𝑠 y toma medidas 𝑎, entonces el siguiente estado 𝑠 ′ siempre es el mismo, sin importar el paso de tiempo), entonces la política óptima también debe ser determinista (es decir, debe ser un mapa de estados a acciones, y no a una distribución de probabilidad sobre acciones).

Parece razonable, pero puede llevar esa intuición más allá con cualquier método basado en una función de valor:

Si ha encontrado una función de valor óptimo, entonces actuar con avidez con respecto a ella es la política óptima.

La declaración anterior es solo una reformulación en lenguaje natural de la ecuación de optimización de Bellman:

v(s)=maxar,sp(r,s|s,a)(r+γv(s))

maxa

Por lo tanto, cualquier entorno que pueda ser modelado por un MDP y resuelto por un método basado en valores (por ejemplo, iteración de valores, Q-learning) tiene una política óptima que es determinista.

Es posible en un entorno tal que la solución óptima no sea estocástica en absoluto (es decir, si agrega cualquier aleatoriedad a la política óptima determinista, la política será estrictamente peor). Sin embargo, cuando existen vínculos para el valor máximo de una o más acciones en uno o más estados, existen múltiples políticas óptimas y deterministas equivalentes. Puede construir una política estocástica que las mezcle en cualquier combinación, y también será óptima.

Neil Slater
fuente
1
"Es posible en un entorno tal que ninguna política estocástica sea óptima", ¿quiere decir política determinista?
nbro
2
@nbro: No, realmente quiero decir que no hay una política estocástica óptima. Este es comúnmente el caso. Piense por ejemplo en un simple solucionador de laberintos. Si la solución determinista óptima es un camino único desde el comienzo hasta la salida, agregarle cualquier aleatoriedad empeorará la política estrictamente. Esto no cambia si el entorno agrega ruido aleatorio (por ejemplo, los movimientos a veces fallan)
Neil Slater
2
Entiendo ahora. Estás diciendo que siempre hay una política determinista, entonces una política estocástica y derivada de la política determinista probablemente será peor que la política determinista óptima.
nbro
1
@nbro: Sí, eso es todo.
Neil Slater
5

Yo diría que no.

npiin

pi

Obviamente, si estás en un entorno en el que juegas contra otro agente (una configuración de teoría de juego), tu política óptima será ciertamente estocástica (piensa en un juego de póker, por ejemplo).

Adrien Forbu
fuente
pipii
2
@nbro: Es cierto en la expectativa, que es lo que maximiza la política óptima. Las políticas no intentan adivinar los generadores de números aleatorios, eso se supone imposible (si fuera posible debido a algún estado interno del sistema, debe agregar ese estado interno al modelo o tratarlo como un POMDP)
Neil Slater
@NeilSlater Ok. ¿Pero cambiaría la conclusión si el tiempo es finito? Si tienes una cantidad limitada de tiempo para jugar, entonces la expectativa, supongo, también debe considerar el tiempo disponible para jugar.
nbro
2
@nbro: Eso puede cambiar sus decisiones, pero no se trata realmente de la política óptima. La política óptima para los brazos de bandidos sigue siendo determinista, sobre el uso del mejor brazo, pero no lo sabes. Esto se trata de exploración vs explotación. Tal vez podría decir que tiene "una política óptima para explorar un problema de bandidos". No es la terminología utilizada, por ejemplo, en Sutton & Barto, pero tal vez algunos parroquianos dicen eso, no lo sé. . .
Neil Slater
1
El entorno contiene solo un estado en el que enfrenta la misma decisión una y otra vez: ¿qué brazo tengo que elegir?
Adrien Forbu
0

Estoy pensando en un paisaje de probabilidad, en el que te encuentras como actor, con varios picos y valles desconocidos. Un buen enfoque determinista siempre lo llevará al óptimo local más cercano, pero no necesariamente al óptimo global. Para encontrar el óptimo global, algo así como un algoritmo MCMC permitiría aceptar estocásticamente un resultado temporalmente peor para escapar de un óptimo local y encontrar el óptimo global. Mi intuición es que en un entorno estocástico esto también sería cierto.

Jonathan Moore
fuente