¿Qué es la eficiencia de la muestra y cómo se puede utilizar el muestreo de importancia para lograrlo?

Respuestas:

14

Un algoritmo es eficiente en la muestra si puede sacar el máximo provecho de cada muestra. Imagine aprender tratando de aprender a jugar PONG por primera vez. Como humano, te tomaría unos segundos aprender cómo jugar el juego basado en muy pocas muestras. Esto te hace muy "muestra eficiente". Los algoritmos modernos de RL tendrían que ver100 mil veces más datos que usted, por lo que son, relativamente, muestra ineficiente.

En el caso del aprendizaje fuera de la política, no todas las muestras son útiles porque no son parte de la distribución que nos interesa. Muestra de importanciaEs una técnica para filtrar estas muestras. Su uso original era comprender una distribución mientras solo podía tomar muestras de una distribución diferente pero relacionada. En RL, esto a menudo surge cuando se trata de aprender fuera de la política. Es decir, que sus muestras son producidas por alguna política de comportamiento pero desea aprender una política de destino. Por lo tanto, es necesario medir la importancia / similitud de las muestras generadas con las muestras que la política objetivo puede haber hecho. Por lo tanto, uno está tomando muestras de una distribución ponderada que favorece estas muestras "importantes". Sin embargo, existen muchos métodos para caracterizar lo que es importante, y su efectividad puede variar según la aplicación.

El enfoque más común para este estilo de muestreo fuera de la política de importancia es encontrar una relación de la probabilidad de que la política objetivo genere una muestra. El documento sobre una conexión entre el muestreo de importancia y el gradiente de política de razón de probabilidad (2010) de Tang y Abbeel cubre este tema.

Jaden Travnik
fuente
2
Gracias de nuevo. Pregunta básica: ..finding a ratio of how likely a sample is to be generated by the target policy¿Cómo decidimos esto, dado que solo conocemos la política de comportamiento? ¿No es la política objetivo algo que tenemos que encontrar?
Gokul NC
1
Podemos obtener una estimación de esto fácilmente al encontrar la proporción de la política de destino, pi, al tomar esa acción frente a la política de comportamiento, mu. Por lo tanto, la relación es P = pi (s, a) / mu (s, a) donde a y s son la acción elegida por mu y el estado, respectivamente.
Jaden Travnik
1
Mi pregunta era, ¿de dónde obtenemos pi (s, a), mientras que solo tenemos mu (s, a)? Es decir, ¿de dónde obtenemos la política objetivo, mientras que nuestro objetivo es encontrarla?
Gokul NC
1
Su política de destino se inicializa al azar, solo es cuestión de actualizarla.
Jaden Travnik
5

La eficiencia de muestra denota la cantidad de experiencia que un agente / algoritmo necesita generar en un entorno (por ejemplo, la cantidad de acciones que toma y la cantidad de estados resultantes + recompensas que observa) durante el entrenamiento para alcanzar un cierto nivel de rendimiento. Intuitivamente, se podría decir que un algoritmo es eficiente en la muestra si puede hacer un buen uso de cada pieza de experiencia que genera y mejora rápidamente su política. Un algoritmo tiene una eficiencia de muestra pobre si no puede aprender algo útil de muchas muestras de experiencia y no mejora rápidamente.

La explicación del muestreo de importancia en la respuesta de Jaden parece mayormente correcta.

En el documento en su pregunta, el muestreo de importancia es uno de los ingredientes que permite una combinación correcta de 1) aprender de trayectorias de varios pasos y 2) buffers de repetición de experiencia. Esas dos cosas no eran fáciles de combinar antes (porque los retornos de varios pasos sin muestreo de importancia solo son correctos en el aprendizaje dentro de la política, y las muestras antiguas en un búfer de reproducción fueron generadas por una política antigua, lo que significa que aprender de ellas está fuera de la política ) Sin embargo, ambas cosas mejoran individualmente la eficiencia de la muestra, lo que implica que también es beneficioso para la eficiencia de la muestra si aún se pueden combinar de alguna manera.

Dennis Soemers
fuente