Tengo una pregunta posiblemente ingenua sobre AlphaZero. Lo he visto descrito como jugar en un estilo "más humano" que otras computadoras, pero haga lo que haga, gana unos 100 puntos ELO al hacerlo. Kasparov, y muchos otros, han afirmado que un humano fuerte en colaboración con una computadora vencerá a una computadora fuerte (¿quizás por unos 100 ELO?). Entonces, una pregunta obvia es, ¿cómo se compararía AlphaZero con una combinación de "centauro"?
Habiendo visto solo algunos juegos, lo que noto es que la mayoría de las computadoras juegan juegos abiertos que maximizan su propia movilidad, pero AlphaZero parece muy preocupado por limitar la movilidad de los oponentes. En un jugador humano, describiría esto como una cuestión de estilo, no más o menos humano.
Respuestas:
La página 5 del documento tiene su respuesta:
"selectivamente" es la palabra clave. Qué significa eso? Usemos esta siguiente posición para nuestro ejemplo:
Este es un juego reciente ganado por Caruana en el London Chess Classic 2017. El alfil blanco está bajo ataque, y sabes que tienes que moverlo. Pero donde?
Posibilidades (no perder una pieza):
¿Qué estaba pensando Caruana?
Este es el pensamiento humano , y un "movimiento humano". Caruana no había considerado Bh4, Be3 y Bd2 porque se "veían" mal. Se había centrado solo y solo en el movimiento Bc1.
Los humanos juegan al ajedrez de manera muy selectiva , descartamos movimientos irrazonables porque no tenemos tiempo para examinar todas las posibilidades por igual.
Eso es lo que AlphaZero intenta reclamar en el periódico. Afirman que su algoritmo, aunque más lento que Stockfish, es capaz de seleccionar selectivamente mejores movimientos que Stockfish en la búsqueda. Si bien Stockfish es más rápido, pierde tiempo en movimientos incorrectos. AlphaZero es más lento, pero es más preciso (como lo que estaba haciendo Caruana).
Por ejemplo, AlphaZero podría gastar el 80% de los recursos en Bc1 y el 20% en todos los demás movimientos de alfil. Stockfish podría dar un 25% por cada movimiento (Bh4, Be3, Bd2, Bc1).
fuente
La mayoría de los motores fuertes enfatizan la búsqueda profunda, a expensas de tener una función de evaluación superficial. En el artículo de AlphaZero, dicen que Stockfish analiza 70 millones de posiciones por segundo.
Los grandes maestros humanos miran muy pocas posiciones en comparación con los motores, pero tienen una mejor sensación de quién es mejor en una posición determinada.
AlphaZero observó solo 80,000 posiciones por segundo, por lo que pasa mucho más tiempo en su función de evaluación.
Ese es el sentido en el que querían decir "más humano", nada más.
fuente
AlphaZero ya parece jugar como un "centauro" regular -> correspodence GM con asistencia de motor.
Como FM, disfrutaría mucho más jugar AlphaZero frente a un motor normal.
Una comparación sería que juega como lo haría Karpov con tácticas perfectas. (El juego 9 AlphaZero juega una pieza hacia abajo durante 15 movimientos, que es muy parecido a Tal).
No es solo estilo, AlphaZero da la impresión de comprender mejor las posiciones que Stockfish.
AlphaZero tampoco sufre el efecto Horizon que todos los motores de ajedrez habían sufrido hasta ahora. Una y otra vez es capaz de evaluar correctamente una posición más baja que Stockfish.
Aquí hay un ejemplo:
AlphaZero juega el rey al centro 16. Kxd2! en un juego intermedio, juzgando correctamente que las negras no podrán aprovecharlo.
Es capaz de evaluar correctamente un sacrificio de pieza 30. Bxg6! mientras que los motores normales no pueden ver que están perdidos por varios movimientos.
Hay otros ejemplos como el sacrificio de intercambio en el Juego 3.
fuente
Es tan fácil subirse a un carro que dice que el juego de Alpha-Zero es "más" humano que los programas de ajedrez de computadora anteriores como saltar en el vagón opuesto y decir que el juego de Alpha-Zero es completamente "alienígena". No está claro que el juego de Alpha-zero sea "más humano", especialmente dada nuestra tendencia humana hacia el antropomorfismo.
El ajedrez como una lucha de la mente (humana)
Pero en el ajedrez, ¿es cierta esta tendencia? Magnus Carlsen habló una vez sobre cómo las computadoras 'tradicionales' en general carecen de creatividad humana y dijo:
Magnus Carlsen no vio evidencia de estilos humanos de juego en las computadoras de ajedrez tradicionales. Así que examinemos si el reciente logro de Alpha-Zero ha deshecho esta perspectiva y nos ha movido hacia algo que nos recuerda más a nosotros mismos.
Los creadores del algoritmo indican que, a diferencia de Stockfish, que utiliza un algoritmo de búsqueda Alpha-Beta, Alpha-Zero emplea un algoritmo de búsqueda de árbol Monte-Carlo (MCTS) que acepta como entrada parámetros ponderados θ creados a partir de resultados anteriores ~ Página 3. Dominar el ajedrez y Shogi por juego propio con un algoritmo de aprendizaje de refuerzo general ).
Entonces el algoritmo no exhibe elección en absoluto. Realmente se involucra en una búsqueda aleatoria pero probabilística de Monty-carlo donde las posibles rutas de búsqueda disponibles están cada vez más perjudicadas por los resultados anteriores. ¿Alpha-zero eligió optimizar su estilo de juego de esta manera o fue esa la elección de sus programadores?
Inicialmente tenía todos los movimientos disponibles, por lo que su "estilo" era completamente aleatorio. Sin embargo, dado que su búsqueda está cada vez más limitada de manera óptima por el éxito o el fracaso anterior, su estilo en realidad está cambiando hacia el modo con el que sus programadores lo han encadenado. Sin embargo, ¿es esto 'más humano'? Compare esto con Magnus Carlesen, que a veces elige movimientos menos óptimos porque son más creativos :
El ajedrez como una lucha de la mente (alienígena)
Los humanos pueden elegir los criterios que impulsan su propio estilo de juego (por ejemplo, a menudo elegí impulso y error en mi propio estilo). Muchos ven el juego de Alpha-zero en el ajedrez y se van como Alien decididamente . Nick Hynes, un estudiante graduado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT observa:
Del mismo modo, el gerente general Peter Heine Nielsen le dijo a Chess.com :
Parece que la mayoría reacciona al estilo emergente de juego de Alpha-zero como 'juego alienígena' y no como 'más humano'.
fuente
Este es un momento increíblemente interesante para estar vivo.
Las computadoras de ajedrez a partir de la década de 1970 han sido algoritmos de búsqueda basados en un árbol minimax que utilizan la poda alfa-beta. Estos programas se hicieron cada vez más fuertes tanto por los avances en la velocidad y el paralelismo de la computadora como por las mejoras en la función de evaluación heurística utilizada para podar ramas y seleccionar nodos hoja. Pero la gente ha notado durante mucho tiempo cuán materialista y aburrido es el juego en la computadora, y muchas personas (incluido yo mismo) pensaron que era imposible codificar la intuición "humana" en el software.
¿Pero has visto estos juegos?
AlphaZero exhibe un juego increíblemente hermoso, que incluye varios ejemplos de sacrificio material para obtener una ventaja posicional a largo plazo. Esto es una reminiscencia de algunos de los juegos más bellos de los maestros humanos, pero también con una precisión técnica inigualable. Este es el primer ejemplo que he visto en mi vida de algo generado por computadora y que también tiene una belleza profunda .
El reclamo del centauro:
Escuché a Garry decir esto muchas veces, pero no es cierto. O al menos, ya no será cierto con AlphaZero en la escena.
Imagínese esto: hay un saco de piezas que tiene 10,000 continuaciones relevantes, donde 5,000 de ellas son puramente tácticas (aunque en su mayoría no relacionadas entre sí) y otras 5,000 que son en su mayoría posicionales (pero en su mayoría no relacionadas). ¿Cómo podría un ser humano examinar todas estas variaciones sin cometer un error? Si AlphaZero ahora puede ver estos movimientos altamente creativos, ¿qué contribución podría hacer un humano?
La última frontera:
Queda un lugar donde el cálculo bruto aún superará a las redes neuronales profundas: los finales. No hay una cantidad de intuición que supere una base de tabla. Pero los finales que requieren una base de tabla (porque un árbol de búsqueda no puede ser lo suficientemente profundo como para calcular el movimiento correcto) son bastante raros. Y podría simplemente conectar una base de tabla en AlphaZero, pero eso destruiría la pureza de un motor "autodidacta", ¿verdad?
fuente
Dado que los humanos carecen de la capacidad de buscar en profundidad, como los programas tradicionales de ajedrez informático (fritz, stockfish y otros), crean 'principios estratégicos' o reglas básicas (control central, desarrollo, seguridad del rey) y conceptos o trucos que son aplicables en una gran variedad de situaciones de diferentes maneras, como sacrificio, torres conectadas, par de alfil, finales específicos, por ejemplo, cómo arrinconar al rey con una torre y un peón.
Creo que alpha zero ha reinventado independientemente muchos de estos conceptos (percepciones y conceptos) y también ha aprendido toneladas de otros nuevos, porque no era necesario que su conocimiento se construyera sobre funciones de evaluación humana y la fuerte búsqueda minmax que siempre asume que el oponente es un genio.
Por supuesto, tales principios en sí mismos entran en conflicto en algunas situaciones, es por eso que varias jugadas de apertura y trampas se estudian cuidadosamente, por ejemplo, no desarrolles reina demasiado pronto.
Por otro lado, los humanos también notan que una vez que pierdes una pieza (sin cambio) debilitas tus fuerzas, por lo que tienen mucho cuidado de no perder una pieza sin una compensación.
Creo que el juego de Alphazero ha liberado el ajedrez informático (y el ajedrez humano) del miedo servil de perder material pequeño y la excesiva dependencia de la apertura de libros y valores de piezas.
Los juegos de Alphazero muestran cosas como los 'principios estratégicos' como control central, desarrollo, espacio, iniciativa, son mucho más importantes si tu oponente es descuidado. En otras palabras, 'sacrificio' no es realmente sacrificio sino intercambiar una pieza por ganancia en iniciativa, posición, movimiento dirigido.
Alphago (no el cero) se basó en la evaluación humana, pero alphazero configura toda la cadena de evaluación para 'buscar o simular' como un único proceso de extremo a extremo y presenta una forma de juego totalmente nueva.
Si lo piensas bien, los grandes maestros del pasado como Morphy, Fischer, Kasparov han sido aplaudidos por este tipo de juego, por lo general, intuitivo, donde no están limitados por la evaluación escrita aprovechando situaciones especiales que surgir. Creo que los juegos de alpha zero tienen ese factor 'wow'.
Por qué las redes neuronales. Mientras que los programas de computadora que usan representación simbólica y búsqueda discreta solo pueden usar 'una' forma de pensar, las redes neuronales pueden procesar situaciones paralelas con evaluaciones alternativas y conflictivas y pasar a la vista más valiosa en las capas posteriores.
fuente
Más humano en el sentido de que los movimientos que juega parecen coincidir más o menos con un enfoque humano: jugar para obtener ventajas a largo plazo, sacrificios posicionales, actividad de piezas. Existe una aparente convergencia con el conocimiento humano del ajedrez y los principios estratégicos aceptados refinados a lo largo de los siglos (por ejemplo, "descubrió" muchas mismas aperturas). Esto es notable dado el hecho de que AlphaZero no ha sido sembrado con conocimiento de ajedrez construido por humanos.
Pero las similitudes terminan aquí. AlphaZero lo lleva al siguiente nivel y lo hace mejor, y en formas que los humanos nunca han concebido. AlphaZero posee capacidades "sobrehumanas" para citar el artículo: "AlphaZero logró un nivel de juego sobrehumano" [...] ( https://arxiv.org/pdf/1712.01815.pdf ). Además, no tiene las debilidades inherentes a los seres humanos: problemas de concentración, miedo, cansancio, sentimientos, intuición, etc. que limitan a los humanos. Y su cerebro de silicio permite combinaciones tácticas más allá de las capacidades humanas cuando es necesario.
fuente
Quiero agradecer a todos los que han respondido a esta pregunta, a menudo con sutileza y perspicacia. La principal diferencia en las respuestas, me parece, está en la interpretación de la palabra humano.
AlphaZero no juega ajedrez humano en el sentido de descuidos y errores de cálculo, pero su proceso de "pensamiento" parece corresponder, en una forma más elevada, a cómo creo que piensan los jugadores más fuertes. Elaboras, con bastante rapidez, una lista de "movimientos candidatos" que te gustaría jugar, y para los jugadores más fuertes esta lista es increíblemente precisa, incluso jugando algo como un juego sensiblemente reconocible en un minuto. El resto del tiempo se dedica a preguntar, ¿cuál de los movimientos en esa lista realmente funciona? Petrosian dijo que se sentía más en forma cuando el movimiento que finalmente jugó fue en el primero que pensó. Todos sabemos lo satisfactorio que es cuando el movimiento que más deseamos jugar resulta tácticamente jugable. Puedo relacionarme con el algoritmo AlphaZero mucho más fácilmente que con la búsqueda AlphaBeta,
Lo que parece más interesante es cómo la máquina fue capaz, por juego propio, de reconocer a los candidatos prometedores. Ahí es donde radica el potencial para una verdadera revolución. Me pregunto si esto solo es posible para dominios como ajedrez e ir, donde los objetivos se pueden definir claramente. Pero me parece sorprendente que AlphaZero parece mostrar un juego intencionado, pero Stockfish no tiene idea de lo que está sucediendo.
fuente
Según entiendo las redes neuronales, la verdadera ventaja de A0 es su evaluación superior de las posiciones de la junta. Esta evaluación incorpora tanto conocimiento táctico a corto plazo (que en cierto sentido sirve como multiplicador del número de posiciones examinadas) como una evaluación superior del valor estratégico.
fuente
Una cosa que siento que toda la discusión se ha perdido es que A0 puede jugar ajedrez, shogi e ir, todo muy bien y todo desde el auto entrenamiento. Esto es mucho más humano. Además, en ir ha revelado ideas profundamente nuevas a los mejores jugadores (según tengo entendido). Otros motores son muy específicos de la tarea, A0 parece lo contrario. Me gustaría verlo jugar ajedrez960.
fuente
No creo que haya nada 'humano' en Alpha. Solo usó hardware mucho más fuerte y jugó ajedrez de mayor calidad. Los buenos movimientos de apertura que encuentra (por ejemplo, fianchetto king side con Bg2) se deben totalmente a su libro de apertura simulado. Los conceptos que me impresionaron y que he formulado en 'El secreto del ajedrez': http://davidsmerdon.com/?p=1970 , que Alpha usa por primera vez entre los mejores motores, son cadenas avanzadas más largas, por ejemplo el d4 -e5-f6 cadena que triunfó una pieza entera en el juego de sacrificio Bg6, y los creadores hacia atrás centrales, como se ve en los juegos de defensa francesa entre ambos motores. Ambos conceptos implican buscar a grandes profundidades, y probablemente aquí Alpha fue ayudado por su tremendo hardware. De lo contrario, no veo nada humano en su juego. Muchos de los juegos fueron, sin duda,
fuente