No puedo entender el propósito de los pesos de muestreo de importancia (IS) en la reproducción priorizada (página 5) .
Es más probable que se muestree una transición de la repetición de la experiencia cuanto mayor sea su "costo". Tengo entendido que 'IS' ayuda a abandonar sin problemas el uso de la reproducción priorizada después de haber entrenado durante el tiempo suficiente. Pero, ¿qué utilizamos en su lugar, muestreo uniforme?
Supongo que no puedo darme cuenta de cómo cada componente de dicho coeficiente está afectando el resultado. ¿Alguien podría explicarlo en palabras?
Luego se usa para amortiguar el gradiente, que tratamos de obtener de las transiciones.
Dónde:
- es "ES"
- N es el tamaño del búfer Experience Replay
- P (i) es la oportunidad de seleccionar la transición , dependiendo de "qué tan gordo es su costo".
- comienza desde 0 y se arrastra cada vez más cerca de 1 con cada nueva época.
¿Mi comprensión de estos parámetros también es correcta?
Editar Algún tiempo después de que se aceptara la respuesta, encontré una fuente adicional, un video que podría ser útil para principiantes - MC Simmulations: 3.5 Importance Sampling
Editar Como @avejidah dijo en el comentario a su respuesta " se usa para promediar las muestras por la probabilidad de que sean muestreadas " .
Para darse cuenta de por qué es importante, asuma se fija a 1, tenemos 4 muestras, cada una tiene como sigue:
0.1 0.2 0.3 0.4
Es decir, la primera entrada tiene el 10% de ser elegida, la segunda es el 20%, etc. Ahora, invirtiéndolas, obtenemos:
10 5 3.333 2.5
Promedio vía (que en nuestro caso es ) obtenemos:
2.5 1.25 0.8325 0.625 ...which would add up to '5.21'
Como podemos ver, están mucho más cerca de cero que las versiones simplemente invertidas () Esto significa que el gradiente de nuestra red no se ampliará tanto, lo que dará como resultado una variación mucho menor a medida que entrenemos nuestra red.
Entonces, sin esto tuvimos la suerte de seleccionar la muestra menos probable (), el gradiente se escalará 10 veces. Sería aún peor con valores más pequeños, digamos posibilidad, si nuestra repetición de experiencia tiene miles de entradas, lo cual es bastante habitual.
Tengo una duda. Como por papel,
Entonces, ¿el factor 1 / N no se vuelve ineficaz? por ejemplo, considere la última muestra,
entonces,
normalizando,
Por favor, ayúdame si mi comprensión es incorrecta.
fuente