He leído sobre varios algoritmos para resolver problemas de bandidos armados n como -greedy, softmax y UCB1, pero tengo algunos problemas para determinar qué enfoque es mejor para minimizar el arrepentimiento.
¿Existe un algoritmo óptimo conocido para resolver el problema del bandido armado n? ¿Existe una elección de algoritmo que parece funcionar mejor en la práctica?
Respuestas:
Aquí hay dos encuestas que he encontrado recientemente. Todavía no los he leído, pero los resúmenes suenan prometedores.
Joann`s Vermorel y Mehryar Mohri: Algoritmos de bandido multi-armados y evaluación empírica (2005)
Del resumen:
Volodymyr Kuleshov y Doina Precup: Algoritmos para el problema de los bandidos multi-armados (2000) Del resumen:
fuente