¿La política óptima es siempre estocástica si el entorno también es estocástico?

¿La política óptima es siempre estocástica (es decir, un mapa de estados a una distribución de probabilidad sobre acciones) si el entorno también es estocástico? Intuitivamente, si el entorno es determinista (es decir, si el agente está en un estado sss y toma la acción unaaa , entonces el...