En el aprendizaje por refuerzo, nuestro objetivo es optimizar la función de valor de estado o la función de valor de acción, que se definen de la siguiente manera:
Sin embargo, cuando usamos el método Q-learning para obtener la estrategia óptima, el método de actualización es el siguiente:
Mi pregunta es:
por qué en Q-learning no hay probabilidad de transición . ¿Significa que no necesitamos esta al modelar MDP?
Para mayor claridad, creo que debería reemplazar con ya que solo hay una función de valor de acción, solo estamos evaluando Q en acciones en el siguiente estado. Esta notación también sugiere dónde se encuentra la .maxa(Q′,a) maxa(Q(S′,a)) p(s′|s,a)
Intuitivamente, es una propiedad del medio ambiente. No controlamos cómo funciona, sino que simplemente tomamos muestras de él. Antes de llamar a esta actualización, primero tenemos que tomar una acción A mientras estamos en el estado S. El proceso de hacer esto nos da una recompensa y nos envía al siguiente estado. El siguiente estado en el que aterrizas se extrae de por definición. Entonces, en la actualización de Q-learning, esencialmente asumimos que es 1 porque allí es donde terminamos.p(s′|s,a) p(s′|s,a) p(s′|s,a)
Esto está bien porque es un método iterativo en el que estamos estimando la función óptima de valor de acción sin conocer la dinámica completa del entorno y más específicamente el valor de . Si tiene un modelo del entorno que le proporciona esta información, puede cambiar la actualización para incluirla simplemente cambiando el retorno a .p(s|s′,a) γp(S′|S,A)maxa(Q(S′,a))
fuente
SARSA
oQ-learning
) debe usar cuando se trata de diferentes situaciones? Gracias.Además de lo anterior, Q-Learning es un algoritmo sin modelo , lo que significa que nuestro agente solo conoce los estados que le da el entorno. En otras palabras, si un agente selecciona y realiza una acción, el siguiente estado solo lo determina el entorno y se lo da al agente. Por esa razón, el agente no piensa en las probabilidades de transición de estado.
fuente