Preguntas etiquetadas con multiarmed-bandit

27

¿El mejor algoritmo de bandido?

El algoritmo de bandido más conocido es el límite superior de confianza (UCB) que popularizó esta clase de algoritmos. Desde entonces supongo que ahora hay mejores algoritmos. ¿Cuál es el mejor algoritmo actual (en términos de rendimiento empírico o límites teóricos)? ¿Es este algoritmo óptimo en...

15

¿En qué tipo de situaciones de la vida real podemos usar un algoritmo de bandido multi-brazo?

Los bandidos de brazos múltiples funcionan bien en situaciones en las que tienes opciones y no estás seguro de cuál maximizará tu bienestar. Puede usar el algoritmo para algunas situaciones de la vida real. Como ejemplo, el aprendizaje puede ser un buen campo: Si un niño está aprendiendo...

algorithms reinforcement-learning multiarmed-bandit

14

Funciones de costo para bandidos contextuales

Estoy usando Wongpal Wabbit para resolver un problema de bandido contextual . Estoy mostrando anuncios a los usuarios y tengo bastante información sobre el contexto en el que se muestra el anuncio (por ejemplo, quién es el usuario, en qué sitio se encuentra, etc.). Este parece ser un problema de...

multinomial gradient-descent multiarmed-bandit vowpal-wabbit contextual-bandit

14

¿Qué es Thompson Sampling en términos simples?

No puedo entender Thompson Sampling y cómo funciona. Estaba leyendo sobre Multi Arm Bandit y después de leer el algoritmo de confianza superior, muchos textos sugirieron que Thompson Sampling funciona mejor que UCB. ¿Qué es Thompson Sampling, en términos simples o simples? No dude en proporcionar...

machine-learning definition multiarmed-bandit

13

Algoritmo óptimo para resolver problemas de bandidos armados

He leído sobre varios algoritmos para resolver problemas de bandidos armados n como -greedy, softmax y UCB1, pero tengo algunos problemas para determinar qué enfoque es mejor para minimizar el arrepentimiento.ϵϵ\epsilon ¿Existe un algoritmo óptimo conocido para resolver el problema del bandido...

machine-learning reinforcement-learning multiarmed-bandit

11

Bandido multi armado para la distribución general de recompensas

Estoy trabajando en un problema de bandidos multibrazos en el que no tenemos información sobre la distribución de recompensas. He encontrado muchos documentos que garantizan límites de arrepentimiento para una distribución con límite conocido y para distribuciones generales con soporte en [0,1]....

references multiarmed-bandit

8

Confianza superior en el aprendizaje automático

Encontré la fórmula para obtener los límites superiores de confianza en el problema del bandido armado k: clnNini−−−−−√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}} donde es la cantidad de muestras que tenemos para este bandido particular y es la cantidad total de muestras que tenemos de todos los...

machine-learning mathematical-statistics confidence-interval reinforcement-learning multiarmed-bandit