El papel está aquí .
La política de implementación ... es una política lineal de softmax basada en características locales rápidas, calculadas incrementalmente y basadas en patrones ...
No entiendo qué es la política de implementación y cómo se relaciona con la red de políticas de seleccionar un movimiento. ¿Alguna explicación más simple?
machine-learning
monte-carlo
reinforcement-learning
games
Hola Mundo
fuente
fuente
Respuestas:
Parece que la red de políticas determina una distribución de probabilidad sobre los posibles movimientos cuando está en estado de juego . Cuando el programa busca en el árbol del juego, lo hace de forma aleatoria, y determina cómo realiza esta búsqueda. La esperanza es que esta función "guíe" al programa a buenos movimientos que un jugador fuerte probablemente haga. Esto tiene sentido porque cuando buscas en el árbol del juego, las ramas que comienzan con errores son menos relevantes al evaluar la posición actual del tablero contra un oponente inteligente.p(a∣s) a s p
Cuando dicen que la política de implementación (creo que tomaron prestado el término "implementación" del backgammon) es una función softmax lineal, se refieren a una generalización de la función sigmoidea utilizada en la regresión logística. Esta función toma la forma
donde es un vector que es función de la posición actual del tablero (según el documento, el softmax lineal solo se usa en el último paso de la red de políticas) y es un vector de pesos que juntos determinan la probabilidad de que la política La red elegirá la acción .x βi ai
fuente