¿En qué tipo de situaciones de la vida real podemos usar un algoritmo de bandido multi-brazo?

15

Los bandidos de brazos múltiples funcionan bien en situaciones en las que tienes opciones y no estás seguro de cuál maximizará tu bienestar. Puede usar el algoritmo para algunas situaciones de la vida real. Como ejemplo, el aprendizaje puede ser un buen campo:

Si un niño está aprendiendo carpintería y es malo en eso, el algoritmo le dirá que probablemente debería seguir adelante. Si él / ella es bueno en eso, el algoritmo le dirá que continúe aprendiendo ese campo.

Las citas también son un buen campo:

Eres un hombre que pones mucho esfuerzo en perseguir a una dama. Sin embargo, sus esfuerzos definitivamente no son bienvenidos. El algoritmo debería "empujar" levemente (o fuertemente) a seguir adelante.

¿Para qué otras situaciones de la vida real podemos usar el algoritmo de bandido multi-brazo?

PD: Si la pregunta es demasiado amplia, deja un comentario. Si hay consenso, eliminaré mi pregunta.

Andy K
fuente
3
Dado que hay 3 respuestas votadas (hasta ahora), no creo que sea demasiado amplio para responder.
gung - Restablece a Monica
@gung Tengo más votos a favor y, sin embargo, no se reflejan en mi puntaje. ¿Cómo?
Andy K
55
Eso es porque este hilo es el wiki de la comunidad (CW), @AndyK. Cuando un hilo es CW, las personas no obtienen reputación de los votos positivos (o la pierden de los votos negativos). Sin embargo, ganarías insignias normalmente. Preguntas como esta que solicitan listas de cosas y donde no hay una respuesta única, clara y "correcta" se supone que están fuera del tema en los sitios de SE. Nuestro compromiso (creo que otros sitios también lo hacen) es permitir tales preguntas caso por caso, pero hacerlas CW.
gung - Restablece a Monica
bastante justo @gung
Andy K
1
admisiones a la universidad. Selección de métricas para la selección de receptores para órganos donados.
EngrStudent - Reinstale a Monica el

Respuestas:

8

Cuando juegas a los juegos originales de Pokémon (Rojo o Azul y Amarillo) y llegas a la ciudad de Celadón, las máquinas tragamonedas del Equipo tienen diferentes probabilidades. Multi-Arm Bandit allí mismo si desea optimizar obtener ese Porygon realmente rápido.

Con toda seriedad, la gente habla sobre el problema de elegir variables de ajuste en el aprendizaje automático. Especialmente si tiene muchas variables, se habla de exploración vs explotación. Vea como Spearmint o incluso el nuevo artículo en este tema que usa un algoritmo súper simple para elegir los parámetros de ajuste (y supera a otras técnicas de variables de ajuste)

www3
fuente
6

Se pueden usar en un entorno de diseño de investigación / tratamiento biomédico. Por ejemplo, creo que los algoritmos de q-learning se utilizan en ensayos secuenciales, de asignación múltiple y aleatorios ( ensayos SMART ). En términos generales, la idea es que el régimen de tratamiento se adapte de manera óptima al progreso del paciente. Está claro cómo esto podría ser mejor para un paciente individual, pero también puede ser más eficiente en ensayos clínicos aleatorios.

gung - Restablece a Monica
fuente
Gracias @gung. No sabía sobre ese algoritmo. Voy a leerlo
Andy K
2

Hice la misma pregunta sobre Quora

Aquí está la respuesta.

  • Asignación de fondos para diferentes departamentos de una organización.

  • Escoger a los mejores atletas de un grupo de estudiantes con un tiempo limitado y un umbral de selección arbitrario.

  • Maximizar los ingresos del sitio web mientras se prueban simultáneamente nuevas características (en lugar de las pruebas A / B) Puede usarlas en cualquier momento que necesite optimizar los resultados cuando no tiene suficientes datos para crear un modelo estadístico riguroso.

Andy K
fuente