¿Cuál es la política de implementación en el documento de AlphaGo?

El papel está aquí .

La política de implementación ... es una política lineal de softmax basada en características locales rápidas, calculadas incrementalmente y basadas en patrones ...

No entiendo qué es la política de implementación y cómo se relaciona con la red de políticas de seleccionar un movimiento. ¿Alguna explicación más simple?

machine-learning monte-carlo reinforcement-learning games Hola Mundo
fuente

El periódico parece estar detrás de un muro de pago ...

Vladislavs Dovgalecs

@xeon No puedo evitar eso. Tengo acceso completo al documento, pero no puedo subirlo aquí (leyes de derechos de autor). ¿Quizás googlear si alguien más tiene una copia?

HelloWorld

@xeon airesearch.com/wp-content/uploads/2016/01/…

dsaxton

Respuestas:

Parece que la red de políticas determina una distribución de probabilidad sobre los posibles movimientos cuando está en estado de juego . Cuando el programa busca en el árbol del juego, lo hace de forma aleatoria, y determina cómo realiza esta búsqueda. La esperanza es que esta función "guíe" al programa a buenos movimientos que un jugador fuerte probablemente haga. Esto tiene sentido porque cuando buscas en el árbol del juego, las ramas que comienzan con errores son menos relevantes al evaluar la posición actual del tablero contra un oponente inteligente. $p(a \mid s)$ $a$ $s$ $p$

Cuando dicen que la política de implementación (creo que tomaron prestado el término "implementación" del backgammon) es una función softmax lineal, se refieren a una generalización de la función sigmoidea utilizada en la regresión logística. Esta función toma la forma

\frac{e^{β_{i}^{T} x}}{\sum_{j = 1}^{k} e^{β_{j}^{T} x}}

$\frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}}$

donde es un vector que es función de la posición actual del tablero (según el documento, el softmax lineal solo se usa en el último paso de la red de políticas) y es un vector de pesos que juntos determinan la probabilidad de que la política La red elegirá la acción . $x$ $\beta_i$ $a_i$

dsaxton
fuente