Los bandidos de brazos múltiples funcionan bien en situaciones en las que tienes opciones y no estás seguro de cuál maximizará tu bienestar. Puede usar el algoritmo para algunas situaciones de la vida real. Como ejemplo, el aprendizaje puede ser un buen campo:
Si un niño está aprendiendo carpintería y es malo en eso, el algoritmo le dirá que probablemente debería seguir adelante. Si él / ella es bueno en eso, el algoritmo le dirá que continúe aprendiendo ese campo.
Las citas también son un buen campo:
Eres un hombre que pones mucho esfuerzo en perseguir a una dama. Sin embargo, sus esfuerzos definitivamente no son bienvenidos. El algoritmo debería "empujar" levemente (o fuertemente) a seguir adelante.
¿Para qué otras situaciones de la vida real podemos usar el algoritmo de bandido multi-brazo?
PD: Si la pregunta es demasiado amplia, deja un comentario. Si hay consenso, eliminaré mi pregunta.
Respuestas:
Cuando juegas a los juegos originales de Pokémon (Rojo o Azul y Amarillo) y llegas a la ciudad de Celadón, las máquinas tragamonedas del Equipo tienen diferentes probabilidades. Multi-Arm Bandit allí mismo si desea optimizar obtener ese Porygon realmente rápido.
Con toda seriedad, la gente habla sobre el problema de elegir variables de ajuste en el aprendizaje automático. Especialmente si tiene muchas variables, se habla de exploración vs explotación. Vea como Spearmint o incluso el nuevo artículo en este tema que usa un algoritmo súper simple para elegir los parámetros de ajuste (y supera a otras técnicas de variables de ajuste)
fuente
Se pueden usar en un entorno de diseño de investigación / tratamiento biomédico. Por ejemplo, creo que los algoritmos de q-learning se utilizan en ensayos secuenciales, de asignación múltiple y aleatorios ( ensayos SMART ). En términos generales, la idea es que el régimen de tratamiento se adapte de manera óptima al progreso del paciente. Está claro cómo esto podría ser mejor para un paciente individual, pero también puede ser más eficiente en ensayos clínicos aleatorios.
fuente
Se utilizan en pruebas A / B de publicidad en línea, donde se muestran diferentes anuncios a diferentes usuarios y en función de los resultados se toman decisiones sobre qué anuncios mostrar en el futuro. Esto se describe en un bonito artículo del investigador de Google Steven L. Scott .
fuente
Hice la misma pregunta sobre Quora
Aquí está la respuesta.
fuente