¿Qué es Thompson Sampling en términos simples?

14

No puedo entender Thompson Sampling y cómo funciona. Estaba leyendo sobre Multi Arm Bandit y después de leer el algoritmo de confianza superior, muchos textos sugirieron que Thompson Sampling funciona mejor que UCB. ¿Qué es Thompson Sampling, en términos simples o simples?

No dude en proporcionar artículos de referencia para una mejor comprensión.

deja Vu
fuente

Respuestas:

9

Voy a tratar de dar una explicación sin ninguna matemática. Parte de esta respuesta se repite a partir de algunos puntos que hice en una respuesta a otra pregunta sobre problemas de MAB .


La desventaja estratégica en problemas de bandidos múltiples brazos: En problemas de bandidos múltiples brazos que el jugador juega un "bandido" cada ronda y los intentos de maximizar su rentabilidad total esperada en un determinado número de rondas. El rendimiento esperado de cada uno de los bandidos se describe mediante algunos parámetros desconocidos en el problema y, a medida que observamos más resultados en cada ronda, obtenemos más información sobre estos parámetros desconocidos y, por lo tanto, sobre el rendimiento esperado de cada uno de los bandidos. . En cada ronda de juego (excepto la última), el problema MAB implica una compensación estratégica por parte del jugador entre dos objetivos:

  • Recompensas inmediatas: en cada ronda le gustaría elegir una distribución que le dé una alta recompensa esperada en esta ronda, lo que implica una preferencia por las distribuciones que infiere (actualmente) para tener una alta recompensa media;

  • Recompensas futuras (afectadas por la ganancia de información): por otro lado, quiere refinar su conocimiento de las verdaderas recompensas esperadas al obtener más información sobre las distribuciones (especialmente aquellas que no ha jugado tanto como otras), para que pueda mejorar sus elecciones en rondas futuras.

La importancia relativa de estas dos cosas determinará la compensación, y esta importancia relativa se ve afectada por una serie de factores. Por ejemplo, si solo hay un pequeño número de rondas restantes en el problema, la inferencia para ensayos futuros es relativamente menos valiosa, mientras que si hay un gran número de rondas restantes, la inferencia para recompensas futuras es relativamente más valiosa. Por lo tanto, el jugador debe considerar cuánto quiere centrarse en maximizar las recompensas inmediatas en la ronda actual, y cuánto quiere desviarse de esto, para aprender más sobre los parámetros desconocidos que determinan la recompensa esperada de cada uno de los bandidos.


Muestreo de Thompson: La idea básica del muestreo de Thompson es que en cada ronda, tomamos nuestro conocimiento existente de las máquinas, que es en forma de una creencia posterior sobre los parámetros desconocidos, y "muestreamos" los parámetros de esta distribución posterior. Este parámetro muestreado produce un conjunto de recompensas esperadas para cada máquina, y ahora apostamos por el que tenga el mayor rendimiento esperado, bajo ese parámetro muestreado.

Prima facie , el esquema de muestreo de Thompson parece implicar un intento de maximizar el rendimiento esperado inmediato en cada ronda (ya que implica este paso de maximización después de muestrear el parámetro). Sin embargo, debido a que implica un muestreo aleatorio del parámetro desde la parte posterior, el esquema implica un implícitovariación de maximizar la recompensa actual, versus buscar más información. La mayoría de las veces obtendremos un parámetro "muestra" que se encuentra en algún lugar de la parte principal de la parte posterior, y la elección de la máquina se aproximará aproximadamente a la maximización de la recompensa inmediata. Sin embargo, a veces tomaremos muestras de forma aleatoria de un valor de parámetro que esté lejos de las colas de la distribución posterior, y en ese caso terminaremos eligiendo una máquina que no maximice la recompensa inmediata, es decir, esto constituirá más una "búsqueda" "para ayudar con futuras recompensas.

El esquema de Thompson también tiene la buena propiedad de que tendemos a disminuir nuestra "búsqueda" a medida que obtenemos más información, y esto imita la compensación estratégica deseable en el problema, donde queremos centrarnos menos en las búsquedas a medida que obtenemos más información. A medida que jugamos más y más rondas y obtenemos más y más datos, la parte posterior converge más cerca de los valores de parámetros verdaderos y, por lo tanto, el "muestreo" aleatorio en el esquema de Thompson se vuelve más ajustado alrededor de los valores de parámetros que conducirán a la maximización de recompensa inmediata Por lo tanto, existe una tendencia implícita de este esquema a estar más "orientado a la búsqueda" desde el principio con poca información, y menos "orientado a la búsqueda" más adelante, cuando hay muchos datos.

Ahora, dicho esto, un inconveniente claro del esquema de muestreo de Thompson es que no tiene en cuenta el número de rondas restantes en el problema MAB. Este esquema a veces se formula sobre la base de un juego con rondas infinitas, y en este caso eso no es un problema. Sin embargo, en los problemas de MAB con rondas finitas, es preferible tener en cuenta el número de rondas restantes para disminuir la "búsqueda" a medida que disminuye el número de rondas futuras. (Y en particular, el juego óptimo en la última ronda es ignorar las búsquedas por completo y solo apostar al bandido con el mayor rendimiento esperado posterior). El esquema de Thompson no hace esto, por lo que jugará juegos de ronda finita de una manera eso es claramente subóptimo en ciertos casos.

Reinstalar a Mónica
fuente
1
Desearía poder dar esta respuesta con varios pulgares arriba. Probablemente agregaría cómo actualizaría los posteriores, por ejemplo, si los posteriores se representaran como distribuciones normales, cómo se calculan las actualizaciones para la media y la desviación estándar de los posteriores. Digo esto porque no me conozco
Mellow el
5

¡Lo intentaré y espero que les guste! Hay algunas fórmulas a continuación que pueden asustarte. No lo espero, porque haré todo lo posible para explicarlos de la manera más simple que pueda.

Estas son las dos fórmulas:

  • La probabilidad: PAG(rEl |θ,un,X)
  • Y la posterior: PAG(θEl |re)

TL; DR

Thompson Sampling te permite

  1. Elija un parámetro de modelo aleatorio de todos los parámetros de modelo que considere posibles.
  2. Actúa una vez de acuerdo con ese parámetro del modelo en particular.
  3. Observe la recompensa que obtiene con ese parámetro de modelo en particular.
  4. Aprenda de esta nueva experiencia y actualice su creencia sobre los posibles parámetros del modelo.

¿¿Probabilidad??

La probabilidad es algo que define la probabilidad de que las cosas sean. En este caso, la probabilidad dice cuán probable es que obtengamos una recompensar si juega acción un en contexto X. Por ejemplo, si está lloviendo (¡contexto!) Y tomas un paraguas (¡acción!) Te quedas seco (¡recompensa! :)). Por otro lado, si no está lloviendo (¡contexto!) Y tomas un paraguas (¡acción!) Tienes que llevar un peso extra (¡recompensa negativa! :(). Así que la probabilidad es lo central que quieres entender. Si sabe todo sobre la probabilidad, es fácil actuar de manera óptima.

¿Qué hay de ese círculo extraño?

Como habrás notado, no escribí nada sobre ese extraño círculo θque se llama theta. (Los matemáticos tienen la costumbre de indicar qué partes son las más difíciles dándoles letras griegas, lo que hace que sea aún más difícil de entender). Estaθrepresenta el parámetro del modelo. Estos parámetros se utilizan cuando la relación entre el contexto + acciones y la recompensa es más difícil. Por ejemplo, un parámetro modelo podría ser cuánto baja su recompensa si cae una lluvia de 1 mm sobre su cabeza. Otro parámetro del modelo podría indicar cuánto disminuye su recompensa si toma un paraguas. Acabo de decir que la probabilidad es lo central que quieres entender; y centrales para la probabilidad son los parámetros del modelo. Si conoces los parámetros del modeloθ, ya sabes cómo se relacionan las acciones de contexto + con la recompensa y es fácil actuar de manera óptima.

Entonces, ¿cómo podemos conocer estos parámetros del modelo de manera que pueda obtener la máxima recompensa?

Esa es la pregunta esencial para el problema de los bandidos multi-armados. En realidad, tiene dos partes. Desea conocer los parámetros del modelo con precisión mediante la exploración de todo tipo de acciones en diferentes contextos. Pero si ya sabe qué acción es buena para un contexto específico, desea explotar esa acción y obtener la mayor recompensa posible. Entonces, si no está seguro acerca de los parámetros de su modeloθEs posible que desee hacer un poco de exploración adicional. Si está bastante seguro de los parámetros de nuestro modelo.θ, también está bastante seguro de qué acción tomar. Esto se conoce como el intercambio de exploración versus explotación.

No has dicho nada sobre este posterior

La clave de este comportamiento óptimo es su (des) certeza sobre los parámetros del modelo θ. Y la parte posterior dice exactamente eso: dadas todas las recompensas anteriores que obtuvimos de acciones anteriores en contextos anteriores, ¿cuánto sabes sobreθ. Por ejemplo, si nunca has estado afuera, no sabes lo infeliz que eres cuando cae la lluvia sobre tu cabeza. En otras palabras, no está seguro acerca del parámetro del modelo de infelicidad cuando llueve sobre la cabeza. Si a veces ha estado lloviendo, con y sin paraguas, puede comenzar a aprender algo sobre este oscuro parámetro del modelo.

Ahora, ¿qué sugiere hacer Thomson Sampling con todas estas incertidumbres?

Thomson Sampling sugiere algo muy simple: simplemente elija un parámetro de modelo aleatorio de su posterior, realice una acción y observe lo que sucede. Por ejemplo, cuando nunca antes has estado afuera, el parámetro infelicidad cuando llueve en la cabeza puede ser cualquier cosa. Así que solo elegimos uno, asumimos que nos ponemos realmente infelices cuando llueve sobre nuestra cabeza. Vemos que está lloviendo (contexto), así que tomamos un paraguas (acción) porque nuestro parámetro modelo nos dice que así es como podemos obtener la máxima recompensa. Y, de hecho, observa que se pone un poco gruñón al caminar bajo la lluvia con un paraguas, pero no realmente infeliz. Aprendemos de esto que rain + umbrella es gruñón. La próxima vez que llueva, volverás a tener una creencia aleatoria sobre lo que sucede cuando la lluvia cae sobre tu cabeza. Esta vez puede ser que no te moleste en absoluto. Sin embargo, una vez que estás a medio camino de tu destino, te estás escurriendo y aprendes que la lluvia sin paraguas es realmente muy mala. Esto reduce su incertidumbre acerca de la infelicidad cuando llueve sobre la cabeza, porque ahora sabe que probablemente sea alta.

¡Esto suena muy simple!

Sí, no es tan complejo. La parte difícil es el muestreo de un parámetro modelo posterior. Obtener y mantener una distribución sobre todos los parámetros de su modelo, que también es apropiado para su problema específico, es difícil. Pero ... definitivamente es factible :).

Pieter
fuente