En el aprendizaje por refuerzo, ¿es una política siempre determinista, o es una distribución de probabilidad sobre las acciones (de las cuales tomamos muestras)? Si la política es determinista, ¿por qué no es la función de valor, que se define en un estado dado para una política dada siguiente manera?
un punto de salida?
En la definición anterior, tomamos una expectativa. ¿Sobre qué ha terminado esta expectativa?
¿Puede una política conducir a diferentes rutas?
reinforcement-learning
deterministic-policy
stochastic-policy
MiloMinderbinder
fuente
fuente
Respuestas:
Aquí hay varias preguntas: 1. ¿Es una política siempre determinista? 2. Si la política es determinista, ¿no debería ser el valor también determinista? 3. ¿Cuál es la expectativa en la estimación de la función de valor? Su última pregunta no está muy clara: "¿Puede una política conducir a rutas que tengan valores actuales diferentes?" pero creo que quiere decir: 4. ¿Puede una política conducir a diferentes rutas?
Una política es una función que puede ser determinista o estocástica. Dicta qué acción tomar dado un estado particular. La distribución se usa para una política estocástica y una función de mapeo se usa para una política determinista, donde es el conjunto de estados posibles y es el conjunto de acciones posibles .π( a ∣ s ) π: S→ A S UNA
La función de valor no es determinista. El valor (de un estado) es la recompensa esperada si comienza en ese estado y continúa siguiendo una política. Incluso si la política es determinista, la función de recompensa y el entorno podrían no serlo.
La expectativa en esa fórmula es sobre todas las rutas posibles a partir del estados . Por lo general, las rutas o caminos se descomponen en múltiples pasos, que se utilizan para entrenar estimadores de valor. Estos pasos pueden ser representados por la tupla( s , a , r ,s′) (estado, acción, recompensa, siguiente estado)
Esto está relacionado con la respuesta 2, la política puede conducir a diferentes caminos (incluso una política determinista) porque el entorno generalmente no es determinista.
fuente
La política puede ser estocástica o determinista. La expectativa es sobre ejemplos de entrenamiento dadas las condiciones. La función de valor es una estimación del rendimiento, por lo que es una expectativa.
fuente