Después de leer los logros de google deepmind en los juegos de Atari , estoy tratando de entender el q-learning y q-networks, pero estoy un poco confundido. La confusión surge en el concepto del factor de descuento. Breve resumen de lo que entiendo. Se utiliza una red neuronal convolucional profunda para estimar el valor del valor óptimo esperado de una acción. La red tiene que minimizar la función de pérdida donde es Donde es un valor de puntaje acumulativo yE s ′ [ y | s , a ] E [ r + γ m a x a ′ Q ( s ′ , a ′
Desde el punto de vista matemático, es el factor de descuento y representa la probabilidad de alcanzar el estado desde el estado .s ′ s
Supongo que la red realmente aprende a reescalar la acuerdo con el verdadero valor de , entonces, ¿por qué no dejar que ?γ γ = 1