Aplicaciones de MCTS / UCT

10

MCTS / UCT es un método de búsqueda de árbol de juego que utiliza un algoritmo de bandido para seleccionar nodos prometedores para explorar. Los juegos se juegan hasta su finalización al azar y los nodos que conducen a más victorias se exploran con mayor intensidad. El algoritmo de bandidos mantiene un equilibrio entre explorar nodos con altas tasas de ganancia y explorar nodos desconocidos (y en su forma pura no necesariamente usa una función de evaluación heurística). Los programas basados ​​en esta técnica general han logrado resultados bastante sorprendentes en Computer Go .

¿Se han aplicado las búsquedas de Montecarlo impulsadas por bandidos a otros problemas de búsqueda? Por ejemplo, ¿sería un enfoque útil para aproximar soluciones a MAX-SAT, BKP u otros problemas de optimización combinatoria? ¿Hay alguna característica particular de un problema (estructural / estadístico / etc.) que sugiera si un enfoque de bandido sería o no efectivo?

¿Hay algún problema determinista conocido que sea totalmente resistente a los métodos de bandidos, debido a la naturaleza del espacio de solución?

mhadley
fuente

Respuestas:

7

Esta no es una respuesta completa, pero algunas observaciones básicas sobre cómo aplicar esto a MAX-SAT.

7 7/ /8X=0 0X=1X=0 0X=17 7/ /87 7/ /8

7 7/ /8nortePAG7 7/ /8La heurística que utiliza, incluso si adivina perfectamente, todavía hay fórmulas insatisfactorias para las cuales el retroceso solo concluirá que son insatisfactorias después de exponencialmente muchos pasos. Los límites inferiores en las longitudes de las pruebas de resolución producen estos resultados. Una referencia es:

Pavel Pudlák, Russell Impagliazzo: Un límite inferior para algoritmos DLL para k-SAT (versión preliminar). SODA 2000: 128-136

Ryan Williams
fuente
2

Esta encuesta reciente enumera la aplicación de MCTS a una serie de problemas de búsqueda y optimización que no sean juegos, en la Sección 7.8:

http://pubs.doc.ic.ac.uk/survey-mcts-methods/survey-mcts-methods.pdf

http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=6145622

En cuanto a los dominios que son totalmente resistentes a los métodos basados ​​en bandidos, no estoy al tanto de ningún cambio. El ajedrez es una omisión flagrante de la literatura de MCTS, posiblemente debido a "estados de trampa" que perjudican la búsqueda, pero también posiblemente debido al hecho de que los jugadores de ajedrez de computadora están tan altamente optimizados y buenos en estos días que es poco probable que cualquier enfoque nuevo haga una abolladura en ellos.

Saludos, Cameron

Cameron Browne
fuente