Encontré la fórmula para obtener los límites superiores de confianza en el problema del bandido armado k:
donde es la cantidad de muestras que tenemos para este bandido particular y es la cantidad total de muestras que tenemos de todos los bandidos. El mismo algoritmo se usa en la Búsqueda de árbol de Monte Carlo también para obtener el límite de confianza superior.
Entiendo muy claramente qué es un límite de confianza superior, pero lo que no entiendo es de dónde viene esta fórmula. He intentado buscar en línea en varios lugares, pero no pude encontrar una explicación clara de cómo se deriva esta fórmula. ¿Alguien puede explicar de dónde viene esta fórmula? Suponga que no tengo una gran experiencia en estadísticas.
machine-learning
mathematical-statistics
confidence-interval
reinforcement-learning
multiarmed-bandit
programador de ajedrez
fuente
fuente
Respuestas:
Lo que tienes allí se llama comúnmente el término de exploración. El límite de confianza superior es la media empírica más este término de exploración.
Consideremos cada término por separado:
Para una descripción más técnica, el artículo de Auer et al. Es un buen punto de partida.
fuente
Proviene de la desigualdad de Hoeffding, que proporciona un límite superior en la probabilidad de que la suma de variables aleatorias independientes limitadas se desvíe de su valor esperado en más de una cierta cantidad. Ver https://en.wikipedia.org/wiki/Hoeffding%27s_inequality para más información sobre la desigualdad de Hoeffding. Vea el texto alrededor de la ecuación (3) en el documento original de UCT para una discusión detallada relacionada con UCB1 en la configuración de bandido http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.102.1296
fuente