Imagine la siguiente configuración: tiene 2 monedas, la moneda A que se garantiza que es justa y la moneda B que puede ser justa o no. Se le pide que haga 100 lanzamientos de monedas, y su objetivo es maximizar el número de caras .
Su información previa sobre la moneda B es que fue lanzada 3 veces y arrojó 1 cabeza. Si su regla de decisión se basó simplemente en comparar la probabilidad esperada de caras de las 2 monedas, lanzaría la moneda A 100 veces y terminaría con ella. Esto es cierto incluso cuando se usan estimaciones bayesianas razonables (medias posteriores) de las probabilidades, ya que no tiene ninguna razón para creer que la moneda B arroje más caras.
Sin embargo, ¿qué pasa si la moneda B está sesgada en favor de las caras? Seguramente las "caras potenciales" que abandonas al lanzar la moneda B un par de veces (y por lo tanto obtener información sobre sus propiedades estadísticas) serían valiosas en algún sentido y, por lo tanto, serían un factor en tu decisión. ¿Cómo se puede describir matemáticamente este "valor de la información"?
Pregunta: ¿Cómo construir matemáticamente una regla de decisión óptima en este escenario?
fuente
Respuestas:
Bandido Multi-armado
Este es un caso particular de un problema de bandido multi-armado . Digo un caso particular porque generalmente no conocemos ninguno de las probabilidades de cara (en este caso sabemos que una de las monedas tiene una probabilidad de 0.5).
El problema que plantea se conoce como el dilema de exploración vs explotación : ¿explora las otras opciones o se apega a lo que cree que es el mejor? Existe una solución óptima inmediata, suponiendo que conozca todas las probabilidades : simplemente elija la moneda con la mayor probabilidad de ganar. El problema, como ha aludido, es que no estamos seguros de cuáles son las verdaderas probabilidades .
Hay mucha literatura sobre el tema, y hay muchos algoritmos deterministas, pero desde que etiquetó a este Bayesiano, me gustaría contarle sobre mi solución favorita personal: ¡ el Bandido Bayesiano !
La solución Baysian Bandit
El enfoque bayesiano a este problema es muy natural. Estamos interesados en responder "¿Cuál es la probabilidad de que la moneda X sea la mejor de las dos?".
A priori , suponiendo que todavía no hayamos observado el lanzamiento de una moneda, no tenemos idea de cuál podría ser la probabilidad de que las cabezas de la moneda B denoten este desconocidopB . Entonces deberíamos asignar una distribución uniforme previa a esta probabilidad desconocida. Alternativamente, nuestro anterior (y posterior) para la moneda A se concentra trivialmente por completo en 1/2.
Como ha dicho, observamos 2 colas y 1 cara de la moneda B, necesitamos actualizar nuestra distribución posterior. Suponiendo un uniforme anterior, y los lanzamientos son monedas de Bernoulli, nuestro posterior es un . Comparando las distribuciones posteriores o A y B ahora:Beta(1+1,1+2)
Encontrar una estrategia aproximadamente óptima
Ahora que tenemos los posteriores, ¿qué hacer? Estamos interesados en responder "¿Cuál es la probabilidad de que la moneda B sea la mejor de las dos?" (Recuerde desde nuestra perspectiva bayesiana, aunque hay una respuesta definitiva a cuál es mejor, solo podemos hablar en probabilidades):
La solución aproximadamente óptima es elegir B con probabilidad y A con una probabilidad de 1 - w B . Este esquema maximiza las ganancias esperadas. w B se puede calcular de forma numérica, ya que conocemos la distribución posterior, pero una forma interesante es la siguiente:wB 1−wB wB
Este esquema también se actualiza automáticamente. Cuando observamos el resultado de elegir la moneda B, actualizamos nuestra parte posterior con esta nueva información y seleccionamos nuevamente. De esta manera, si la moneda B es realmente mala, la elegiremos menos, y si la moneda B es realmente buena, la elegiremos con más frecuencia. Por supuesto, somos bayesianos, por lo tanto, nunca podemos estar absolutamente seguros de que la moneda B sea mejor. Elegir probabilísticamente de esta manera es la solución más natural para el dilema de exploración-explotación.
Este es un ejemplo particular de Thompson Sampling . Más información y aplicaciones de frío a la publicidad en línea, se pueden encontrar en trabajos de investigación de Google y el trabajo de investigación de Yahoo . ¡Amo estas cosas!
fuente
Este es un caso simple de un problema de bandido multi-armado . Como observa, desea equilibrar la información que recopila al probar la moneda desconocida cuando cree que es subóptima a corto plazo en lugar de explotar el conocimiento que tiene.
En el clásico problema del bandido multi-armado, no estaría seguro de la probabilidad de ninguna moneda. Sin embargo, aquí se le da a conocer que conoce el valor de la moneda A, por lo que cuando lanza A, no obtiene información. De hecho, bien podría ignorar la naturaleza estocástica de A y asumir que obtiene un piso1 / 2
En general, creo que no se puede escapar de un problema de programación dinámica, aunque puede haber casos especiales en los que se pueda encontrar y verificar la estrategia óptima de manera más simple.
Con un uniforme previo, aquí es donde debes parar:
Bajo esta estrategia, espera recolectar61,3299 cabezas
Usé el siguiente código de Mathematica para calcular las acciones:
A modo de comparación, la heurística de muestreo de Thompson (que Cam Davidson Pilon afirmó que es óptima) da un promedio de 60.2907 cabezas, menor en 1.03915. El muestreo de Thompson tiene el problema de que a veces muestrea B cuando tienes suficiente información para saber que no es una buena apuesta, y a menudo desperdicia las posibilidades de probar B temprano, cuando la información vale más. En este tipo de problema, casi nunca eres indiferente entre tus opciones, y existe una estrategia óptima pura.
fuente