Confianza superior en el aprendizaje automático

8

Encontré la fórmula para obtener los límites superiores de confianza en el problema del bandido armado k:

clnNini

donde es la cantidad de muestras que tenemos para este bandido particular y es la cantidad total de muestras que tenemos de todos los bandidos. El mismo algoritmo se usa en la Búsqueda de árbol de Monte Carlo también para obtener el límite de confianza superior.niNi

Entiendo muy claramente qué es un límite de confianza superior, pero lo que no entiendo es de dónde viene esta fórmula. He intentado buscar en línea en varios lugares, pero no pude encontrar una explicación clara de cómo se deriva esta fórmula. ¿Alguien puede explicar de dónde viene esta fórmula? Suponga que no tengo una gran experiencia en estadísticas.

programador de ajedrez
fuente
Personalmente encontré que banditalgs.com/2016/09/18/the-upper-confidence-bound-algorithm contiene una buena explicación. Incluye algunas matemáticas pesadas, pero es posible obtener una buena comprensión incluso al omitir algunas de las ecuaciones más pesadas en mi opinión. Solo lea la intuición y algunas de las ecuaciones más simples
Dennis Soemers

Respuestas:

5

Lo que tienes allí se llama comúnmente el término de exploración. El límite de confianza superior es la media empírica más este término de exploración.

Consideremos cada término por separado:

c es una constante que permite al usuario establecer la compensación de exploración / explotación. Para obtener resultados teóricos, a menudo se optimiza para el problema en cuestión (por ejemplo, bandidos armados con k con antecedentes gaussianos).

1/ni es proporcional a la desviación estándar posterior después de muestras de acción . Esencialmente, esto dice que a medida que tira de un brazo con más frecuencia, hay menos desconocidos sobre el brazo.nii

ln(Ni) asegura que no dejes de explorar demasiado pronto. A medida que vuelve muy grande, las variaciones de la muestra se vuelven lo suficientemente pequeñas como para que necesitemos compensarlas para asegurarnos de que nunca dejamos de explorar por completo. La mayoría de las matemáticas técnicas es para mostrar que es suficiente (pero no demasiada) compensación.Niln(Ni)

Para una descripción más técnica, el artículo de Auer et al. Es un buen punto de partida.

combo
fuente
el enlace al final no me funciona.
chessprogrammer
Debería funcionar ahora, perdón por eso
combo el
2

Proviene de la desigualdad de Hoeffding, que proporciona un límite superior en la probabilidad de que la suma de variables aleatorias independientes limitadas se desvíe de su valor esperado en más de una cierta cantidad. Ver https://en.wikipedia.org/wiki/Hoeffding%27s_inequality para más información sobre la desigualdad de Hoeffding. Vea el texto alrededor de la ecuación (3) en el documento original de UCT para una discusión detallada relacionada con UCB1 en la configuración de bandido http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.102.1296

Halcón
fuente