El significado del factor de descuento en el aprendizaje por refuerzo

10

Después de leer los logros de google deepmind en los juegos de Atari , estoy tratando de entender el q-learning y q-networks, pero estoy un poco confundido. La confusión surge en el concepto del factor de descuento. Breve resumen de lo que entiendo. Se utiliza una red neuronal convolucional profunda para estimar el valor del valor óptimo esperado de una acción. La red tiene que minimizar la función de pérdida donde es Donde es un valor de puntaje acumulativo yE s [ y | s , a ] E [ r + γ m a x a Q ( s , a

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
Es[y|s,a]Q r
E[r+γmaxaQ(s,a;θi)|s,a]
Qres el valor de puntuación para la acción que elija. y son respectivamente el estado y la acción elegidos en el momento el estado y la acción en el momento . El son los pesos de la red en la iteración anterior. El es un factor de descuento que tiene en cuenta la diferencia temporal de los valores de puntuación. El subíndice es el paso temporal. El problema aquí es entender por qué no depende de .s , a t t θ - i γ i γ θs,as,attθiγiγθ

Desde el punto de vista matemático, es el factor de descuento y representa la probabilidad de alcanzar el estado desde el estado .s sγss

Supongo que la red realmente aprende a reescalar la acuerdo con el verdadero valor de , entonces, ¿por qué no dejar que ?γ γ = 1Qγγ=1

emanuele
fuente

Respuestas:

6

El factor de descuento no representa la probabilidad de alcanzar el estado desde el estado . Eso sería , que no se utiliza en Q-Learning, ya que no contiene modelos (solo los métodos de aprendizaje de refuerzo basados ​​en modelos utilizan esas probabilidades de transición). El factor de descuento es un hiperparámetro ajustado por el usuario que representa la cantidad de eventos futuros que pierden su valor de acuerdo con la distancia en el tiempo en que se encuentran. En la fórmula mencionada, usted dice que el valor para su estado actual es la recompensa instantánea por este estado más lo que espera recibir en el futuro a partir dessp(s|s,a)γyss. Pero ese plazo futuro debe descontarse, porque las recompensas futuras pueden no tener (si ) tienen el mismo valor que recibir una recompensa en este momento (al igual que preferimos recibir $ 100 ahora en lugar de $ 100 mañana). Depende de usted elegir cuánto desea depreciar sus recompensas futuras (depende del problema). Un factor de descuento de 0 significaría que solo le interesan las recompensas inmediatas. Cuanto mayor sea su factor de descuento, más se propagarán sus recompensas a través del tiempo.γ<1

Le sugiero que lea el libro de Sutton & Barto antes de probar Deep-Q para aprender Aprendizaje de refuerzo puro fuera del contexto de las redes neuronales, lo que puede confundirlo.

rcpinto
fuente
Gracias por tu respuesta, pero todavía tengo algunas dudas. Estoy pensando en voz alta. Imagina que en cada paso recibes una puntuación de y tienes que pagar para comenzar a jugar. ¿Cómo calculo el valor esperado? Bueno, porque estás agregando valores de en diferentes momentos en el futuro, ¿no? c E v = + i = 1 γ i d - c ddc
Ev=i=1+γidc
d
emanuele
Bueno, romperé incluso si ¿cuál es el valor correcto para ? El valor correcto para es el valor que me permite una compensación entre las recompensas presentes y futuras y es . es la probabilidad de sobrevivir en el paso y es por eso que . La comprobación es donde hay probabilidades de sobrevivir en cada paso y es la vida útil esperada. γgammaγ=ppt0γ1p
dγ1γ=c
γgammaγ=ppt0γ1τp1p=ττ
emanuele