A mi entender, el algoritmo de búsqueda de árbol de Monte Carlo (MCTS) es una alternativa al minimax para buscar un árbol de nodos. Funciona eligiendo un movimiento (generalmente, el que tiene la mayor probabilidad de ser el mejor), y luego realizando una jugada aleatoria en el movimiento para ver cuál es el resultado. Este proceso continúa durante el tiempo asignado.
Esto no suena como aprendizaje automático, sino como una forma de atravesar un árbol. Sin embargo, escuché que AlphaZero usa MCTS, así que estoy confundido. Si AlphaZero usa MCTS, entonces ¿por qué AlphaZero aprende? ¿O hizo AlphaZero algún tipo de aprendizaje automático antes de jugar partidos, y luego usó la intuición que obtuvo del aprendizaje automático para saber qué movimientos pasar más tiempo jugando con MCTS?
fuente