Hay múltiples formas de abordar la resolución de problemas de juego. Algunos juegos pueden resolverse mediante algoritmos de búsqueda, por ejemplo. Esto funciona bien para juegos de cartas y juegos de mesa hasta cierto nivel de complejidad. Por ejemplo, el Deep Blue de IBM fue esencialmente una búsqueda rápida y heurística de movimientos óptimos.
Sin embargo, probablemente el algoritmo de aprendizaje automático más genérico para entrenar a un agente para que realice una tarea de manera óptima es el aprendizaje por refuerzo . Técnicamente no es un algoritmo, sino una familia extendida de algoritmos relacionados que resuelven una formalización específica del problema de aprendizaje.
Informalmente, el refuerzo de aprendizaje (RL) se trata de encontrar soluciones óptimas a los problemas definidos en términos de un agente que pueda observar el estado de un entorno , tomar medidas en ese entorno y experimentar recompensas que de alguna manera están relacionadas con el estado y la acción. Los solucionadores de RL deben diseñarse para hacer frente a situaciones donde las recompensas se reciben más tarde que cuando se tomaron acciones importantes, y esto generalmente se logra mediante el algoritmo que aprende una expectativa interna de recompensas posteriores asociadas con pares de estado y / o acción de estado.
Aquí hay algunos recursos para estudiar el aprendizaje por refuerzo:
Encontrará que el tema en sí es bastante grande a medida que se necesitan variaciones cada vez más sofisticadas de los algoritmos a medida que el problema a resolver se vuelve más difícil.
Los juegos iniciales para estudiar el aprendizaje por refuerzo pueden incluir:
Tik-tac-toe (también conocido como ceros y cruces): esto se puede resolver fácilmente mediante la búsqueda, pero es un problema simple de juguete para resolver usando técnicas básicas de RL.
Laberintos: en la literatura de aprendizaje de refuerzo, hay muchos ejemplos de juegos del "mundo de cuadrícula" en los que un agente se mueve en pasos N, E, S y W en un tablero pequeño que puede estar lleno de peligros y objetivos.
Blackjack (también conocido como 21)
Si desea trabajar con agentes para jugar videojuegos, también querrá aprender sobre redes neuronales y probablemente con cierto detalle: necesitará redes neuronales profundas y convolucionales para procesar gráficos de pantalla.
Un recurso relativamente nuevo para RL es OpenAI Universe . Han hecho mucho trabajo para agrupar entornos listos para entrenar a los agentes, lo que significa que puede concentrarse en estudiar los algoritmos de aprendizaje, en lugar del esfuerzo de configurar el entorno.
Con respecto a su lista de habilidades actuales: ninguna de ellas es directamente relevante para el aprendizaje por refuerzo. Sin embargo:
Si puede comprender las matemáticas y la teoría de su curso anterior, entonces también debería ser capaz de comprender la teoría del aprendizaje por refuerzo.
Si ha estudiado cualquier técnica de aprendizaje supervisado en línea o por lotes, puede utilizarlas como componentes dentro de un marco RL. Por lo general, se pueden usar para aproximar una función de valor del estado del juego, en función de los comentarios de éxitos y fracasos hasta el momento.