¿La política óptima es siempre estocástica (es decir, un mapa de estados a una distribución de probabilidad sobre acciones) si el entorno también es estocástico?
Intuitivamente, si el entorno es determinista (es decir, si el agente está en un estado y toma la acción , entonces el siguiente estado es siempre el mismo, sin importar el paso temporal), entonces la política óptima también debe ser determinista (es decir, debe ser un mapa de estados a acciones, y no a una distribución de probabilidad sobre acciones).
Respuestas:
No.
Una política óptima es generalmente determinista a menos que:
Falta información importante sobre el estado (un POMDP). Por ejemplo, en un mapa donde el agente no puede saber su ubicación exacta o recordar estados anteriores, y el estado que se le da no es suficiente para desambiguar entre ubicaciones. Si el objetivo es llegar a una ubicación final específica, la política óptima puede incluir algunos movimientos aleatorios para evitar quedarse atascado. Tenga en cuenta que el entorno en este caso podría ser determinista (desde la perspectiva de alguien que puede ver todo el estado), pero aún así podría requerir una política estocástica para resolverlo.
Hay algún tipo de escenario de teoría de juegos minimax, donde una política determinista puede ser castigada por el medio ambiente u otro agente. Piense en tijeras / papel / piedra o dilema del prisionero.
Parece razonable, pero puede llevar esa intuición más allá con cualquier método basado en una función de valor:
Si ha encontrado una función de valor óptimo, entonces actuar con avidez con respecto a ella es la política óptima.
La declaración anterior es solo una reformulación en lenguaje natural de la ecuación de optimización de Bellman:
Por lo tanto, cualquier entorno que pueda ser modelado por un MDP y resuelto por un método basado en valores (por ejemplo, iteración de valores, Q-learning) tiene una política óptima que es determinista.
Es posible en un entorno tal que la solución óptima no sea estocástica en absoluto (es decir, si agrega cualquier aleatoriedad a la política óptima determinista, la política será estrictamente peor). Sin embargo, cuando existen vínculos para el valor máximo de una o más acciones en uno o más estados, existen múltiples políticas óptimas y deterministas equivalentes. Puede construir una política estocástica que las mezcle en cualquier combinación, y también será óptima.
fuente
Yo diría que no.
Obviamente, si estás en un entorno en el que juegas contra otro agente (una configuración de teoría de juego), tu política óptima será ciertamente estocástica (piensa en un juego de póker, por ejemplo).
fuente
Estoy pensando en un paisaje de probabilidad, en el que te encuentras como actor, con varios picos y valles desconocidos. Un buen enfoque determinista siempre lo llevará al óptimo local más cercano, pero no necesariamente al óptimo global. Para encontrar el óptimo global, algo así como un algoritmo MCMC permitiría aceptar estocásticamente un resultado temporalmente peor para escapar de un óptimo local y encontrar el óptimo global. Mi intuición es que en un entorno estocástico esto también sería cierto.
fuente