Por alguna razón, AlphaGo Zero no recibe tanta publicidad como el AlphaGo original, a pesar de sus increíbles resultados. Comenzando desde cero, ya ha superado a AlphaGo Master y ha superado muchos otros puntos de referencia. Aún más increíble, se hace esto en 40 días. Google lo nombra como "posiblemente el mejor jugador de Go del mundo" .
DeepMind afirma que esta es una "forma novedosa de aprendizaje por refuerzo". ¿Es esta técnica realmente novedosa? ¿O ha habido otros momentos en que se utilizó esta técnica y, de ser así, cuáles fueron sus resultados? Creo que los requisitos de los que estoy hablando son 1) no intervención humana y 2) no juego histórico, pero estos son flexibles.
Esta parece ser una pregunta similar, pero todas las respuestas parecen comenzar desde el supuesto de que AlphaGo Zero es el primero de su tipo.
fuente
Respuestas:
El artículo de AlphaGo Zero de Nature , "Dominando el juego de ir sin conocimiento humano", afirma cuatro grandes diferencias con respecto a la versión anterior:
Los puntos (1) y (2) no son nuevos en el aprendizaje por refuerzo, pero mejoran en el software AlphaGo anterior como se indica en los comentarios a su pregunta. Simplemente significa que ahora están utilizando aprendizaje de refuerzo puro a partir de pesos inicializados aleatoriamente. Esto está habilitado por algoritmos de aprendizaje mejores y más rápidos.
Su afirmación aquí es "Nuestra contribución principal es demostrar que el rendimiento sobrehumano se puede lograr sin el conocimiento del dominio humano". (pág. 22).
Los puntos (3) y (4) son nuevos en el sentido de que su algoritmo es más simple y más general que su enfoque anterior. También mencionan que es una mejora en el trabajo previo de Guo et al.
Unificar la red de política / valor (3) les permite implementar una variante más eficiente de la búsqueda del árbol de Montecarlo para buscar buenos movimientos y usar simultáneamente el árbol de búsqueda para entrenar la red más rápido (4). Esto es muy poderoso.
Además, describen una serie de detalles de implementación interesantes, como el procesamiento por lotes y la reutilización de estructuras de datos para optimizar la búsqueda de nuevos movimientos.
El efecto es que necesita menos potencia informática, se ejecuta en 4 TPU en lugar de 176 GPU y 48 TPU para versiones anteriores de su software.
Esto definitivamente lo hace "novedoso" en el contexto del software Go. Creo que (3) y (4) también son "novedosos" en un contexto más amplio y serán aplicables en otros dominios de refuerzo de aprendizaje como, por ejemplo, la robótica.
fuente