¿La búsqueda de árboles de Monte Carlo califica como aprendizaje automático?

9

A mi entender, el algoritmo de búsqueda de árbol de Monte Carlo (MCTS) es una alternativa al minimax para buscar un árbol de nodos. Funciona eligiendo un movimiento (generalmente, el que tiene la mayor probabilidad de ser el mejor), y luego realizando una jugada aleatoria en el movimiento para ver cuál es el resultado. Este proceso continúa durante el tiempo asignado.

Esto no suena como aprendizaje automático, sino como una forma de atravesar un árbol. Sin embargo, escuché que AlphaZero usa MCTS, así que estoy confundido. Si AlphaZero usa MCTS, entonces ¿por qué AlphaZero aprende? ¿O hizo AlphaZero algún tipo de aprendizaje automático antes de jugar partidos, y luego usó la intuición que obtuvo del aprendizaje automático para saber qué movimientos pasar más tiempo jugando con MCTS?

Ignorancia inercial
fuente

Respuestas:

6

Monte Carlo Tree Search generalmente no se considera una técnica de aprendizaje automático, sino una técnica de búsqueda. Hay paralelismos (MCTS intenta aprender patrones generales de los datos, en cierto sentido, pero los patrones no son muy generales), pero realmente MCTS no es un algoritmo adecuado para la mayoría de los problemas de aprendizaje.

AlphaZero fue una combinación de varios algoritmos. Uno era MCTS, pero MCTS necesita una función que le diga qué tan buenos podrían ser los diferentes estados del juego (o de lo contrario, necesita simular juegos completos). Una forma de manejar esta función en un juego como el ajedrez o Go es aproximarla entrenando una red neuronal, que es lo que hicieron los investigadores de Deep Mind. Este es el componente de aprendizaje de AlphaZero.

John Doucette
fuente
6

La respuesta de John es correcta, ya que MCTS no se ve tradicionalmente como un enfoque de Machine Learning, sino como un algoritmo de búsqueda de árbol, y AlphaZero combina esto con técnicas de Machine Learning (Deep Neural Networks y Reinforcement Learning).

Sin embargo, hay algunas similitudes interesantes entre MCTS y Machine Learning. En cierto sentido, MCTS intenta "aprender" el valor de los nodos a partir de la experiencia generada a través de esos nodos. Esto es muy similar a cómo funciona el aprendizaje por refuerzo (RL) (que en sí mismo se describe como un subconjunto del aprendizaje automático).

Algunos investigadores también han experimentado con reemplazos para la fase tradicional de Backpropagation de MCTS (que, desde un punto de vista RL, puede describirse como la implementación de copias de seguridad Monte-Carlo) basadas en otros métodos RL (por ejemplo, copias de seguridad de diferencia temporal) . Un documento completo que describe este tipo de similitudes entre MCTS y RL es: En Monte Carlo Tree Search and Reinforcement Learning .

También tenga en cuenta que la fase de Selección de MCTS generalmente se trata como una secuencia de pequeños problemas de Bandidos Multi-Armados, y esos problemas también tienen fuertes conexiones con RL.


TL; DR : MCTS normalmente no se ve como una técnica de Machine Learning, pero si lo inspeccionas de cerca, puedes encontrar muchas similitudes con ML (en particular, el aprendizaje por refuerzo).

Dennis Soemers
fuente
1

¡Bienvenido al campo minado de definiciones semánticas dentro de AI! Según la Enciclopedia Británica, ML es una "disciplina relacionada con la implementación de software que puede aprender de forma autónoma". Hay un montón de otras definiciones para ML pero, en general, son tan vagas que dicen algo sobre "aprendizaje", "experiencia", "autónomo", etc., en orden variable. No existe una definición de referencia conocida que la mayoría de las personas usen, por lo que, a menos que uno quiera proponer una, lo que se publique sobre esto debe estar respaldado por referencias.

De acuerdo con la definición de la Enciclopedia Británica, el caso para llamar a MCTS parte de ML es bastante fuerte (Chaslot, Coulom's et al. El trabajo de 2006-8 se utiliza para la referencia de MCTS). Hay dos políticas utilizadas en MCTS, una política de árbol y una política de simulación. En el momento de la decisión, la política de árbol actualiza los valores de acción expandiendo la estructura de árbol y haciendo una copia de seguridad de los valores de lo que encuentre en la búsqueda. No hay una codificación rígida sobre qué nodos deben seleccionarse / expandirse; todo proviene de maximizar las recompensas de las estadísticas. Los nodos más cercanos a la raíz aparecen cada vez más inteligentes a medida que "aprenden" a imitar distribuciones / estados y / o valores de acción de los correspondientes de la realidad. Si esto puede llamarse "autónomo" es una pregunta igualmente difícil porque al final son los humanos quienes escribieron las fórmulas / teoría que usa MCTS.

Johan
fuente