Algoritmo óptimo para resolver problemas de bandidos armados

13

He leído sobre varios algoritmos para resolver problemas de bandidos armados n como -greedy, softmax y UCB1, pero tengo algunos problemas para determinar qué enfoque es mejor para minimizar el arrepentimiento.ϵ

¿Existe un algoritmo óptimo conocido para resolver el problema del bandido armado n? ¿Existe una elección de algoritmo que parece funcionar mejor en la práctica?

JS01
fuente
Presumiblemente no hay una solución óptima reconocida, ya que de lo contrario la página de Wikipedia lo diría y no habría una página
Henry
¿No debería ser esto en informática teórica SE?
1
@mbq ya que el aprendizaje por refuerzo es una rama del aprendizaje automático, no lo creo;)
steffen
@steffen Claro, el nombre parecía "tcsy".
@mbq no lo entiendo. ¿Qué significa "tscy"?
steffen

Respuestas:

9

Aquí hay dos encuestas que he encontrado recientemente. Todavía no los he leído, pero los resúmenes suenan prometedores.

Joann`s Vermorel y Mehryar Mohri: Algoritmos de bandido multi-armados y evaluación empírica (2005)

Del resumen:

El problema del bandido multi-armado para un jugador es decidir qué brazo de una máquina tragamonedas K debe tirar para maximizar su recompensa total en una serie de pruebas. Muchos problemas de aprendizaje y optimización del mundo real pueden modelarse de esta manera. Se han propuesto varias estrategias o algoritmos como solución a este problema en las últimas dos décadas, pero, hasta donde sabemos, no ha habido una evaluación común de estos algoritmos.

Volodymyr Kuleshov y Doina Precup: Algoritmos para el problema de los bandidos multi-armados (2000) Del resumen:

En segundo lugar, el rendimiento de la mayoría de los algoritmos varía dramáticamente con los parámetros del problema del bandido. Nuestro estudio identifica para cada algoritmo la configuración donde funciona bien y la configuración donde funciona mal.

steffen
fuente