La función de evaluación de un motor de ajedrez, ya sea instanciada como una red neuronal o un código explícito, siempre puede asignar un valor a cualquier posición del tablero. Si le das una posición en el tablero, incluso las absurdas que nunca ocurrirían en un juego, podrá escupir un número que representa lo favorable que es para un jugador u otro. Dado que el número de posiciones de tablero en el ajedrez es inmanejablemente gigantesco, el entrenamiento solo puede ocurrir en una muestra infinitesimal del árbol del juego. El motor no solo recuerda los valores calculados previamente de las posiciones del tablero, sino que realiza cálculos basados en la disposición de las piezas. Para un ejemplo de red no neural, parte de la evaluación de un motor de ajedrez podría ser sumar el valor de cada pieza de su lado y restar el valor total de las piezas del oponente. Entonces,
Cuando el motor no está entrenado, los valores asignados a una posición también podrían ser aleatorios, ya que los parámetros de la función de evaluación comienzan con valores (generalmente) aleatorios. El objetivo de una fase de entrenamiento es ajustar los parámetros del motor para que asigne puntajes altos a las posiciones del tablero que son estados ganadores probables para el jugador.
Del documento sobre AlphaZero (página 3):
Los parámetros de la red neuronal profunda en AlphaZero se entrenan mediante el aprendizaje de refuerzo de auto-juego, comenzando desde parámetros inicializados aleatoriamente. Los juegos se juegan seleccionando movimientos para ambos jugadores por MCTS. Al final del juego, la posición final se puntúa de acuerdo con las reglas del juego para calcular el resultado del juego: -1 para una pérdida, 0 para un empate y +1 para una victoria. Los parámetros de la red neuronal se actualizan para minimizar el error entre el resultado predicho y el resultado del juego, y maximizar la similitud del vector de políticas con las probabilidades de búsqueda.
[símbolos matemáticos eliminados de la cita]
En resumen, durante el entrenamiento, AlphaZero jugó un juego contra sí mismo. Cuando termina el juego, el resultado del juego y la precisión de sus predicciones sobre cómo procedería el juego se utilizaron para ajustar la red neuronal para que fuera más precisa durante el próximo juego. AlphaZero no mantiene un registro de cada posición que ha visto, pero se está ajustando para poder evaluar con mayor precisión cualquier tablero que vea en el futuro.