Evaluaciones informáticas: ¿qué tan confiables son?

14

Fritz 12 con Rybka le dio a un amigo mío una evaluación de +3 para las blancas en esta posición final ,

Blanco para moverse

que resultó ser un empate Pero he oído que +3 desde una computadora significa una victoria garantizada con un juego perfecto. ¿Acabo de escuchar mal? ¿Cómo deben interpretarse las evaluaciones informáticas en general? ¿Qué significan las ventajas de apertura de <.5?

chubbycantorset
fuente
3
Desafiaría el comentario de "victoria garantizada". El número de evaluación es un indicador heurístico, básicamente un "sentimiento" que la computadora tiene para el puesto. Los finales pueden tener resultados "sorprendentes", y a menos que la computadora haya sido programada para detectar todos los patrones posibles (o pueda calcular todo el camino), se perderá algunos. Para verlo de otra manera, si +3 estuviera realmente garantizado, no sería +3, sería + infinito.
Daniel B
Para el registro, verifiqué esto con las bases de tablas de 7 piezas de Lichess, y de hecho es un empate.
PhishMaster

Respuestas:

8

Hay un par de cosas aquí.

Primero, cada programa tendrá su propia forma de evaluar las posiciones para que los puntajes no puedan compararse directamente. Por ejemplo, recientemente ejecuté StockFish contra Rybka y descubrí que los puntajes de Stockfish eran casi el doble que los de Rybka. Me sorprendió esto, pero está bastante claro que una puntuación de 1 no siempre significa "1 peón". Creo que deberíamos ver cómo cambia la puntuación. Otra curiosidad que vi ayer (mientras respondía una de sus otras preguntas, por coincidencia) fue que al algoritmo de evaluación de Stockfish no le gustan mucho los números impares. De hecho, la mayoría de los puntajes fueron múltiplos de .04. Dado que la magnitud del valor es arbitraria, no asumiría que cierto valor significa "una ganancia segura" a menos que la máquina afirme que encontró un compañero.

En segundo lugar, se crearon las bases de las tablas del juego final porque resolver juegos finales requiere mucha profundidad de búsqueda. Las computadoras que juegan a velocidades de torneo simplemente no lo hacen bien. Hace unos días estaba trabajando en un juego diferente y anuncié en este sitio que un lado tenía una ventaja. Ed usó una base de tabla para mostrar que no quedaba ningún misterio en la posición, teóricamente fue dibujada. Por supuesto, hay una gran diferencia entre dibujado con juego perfecto y dibujado; los jugadores tienen que encontrar los movimientos correctos.


El pequeño valor generalmente dado a las blancas en las primeras etapas del juego básicamente significa que las blancas pueden reclamar bienes inmuebles más valiosos. Por ejemplo, en el movimiento 1, las blancas pueden reclamar e4 y atacar e5 y f5. El negro puede contrarrestar. Pero entonces las blancas pueden jugar Cc3 y atacar / reforzar a4, b5, d5 y e4. Pero las negras pueden contrarrestar. Entonces significa muy poco.


Finalmente, para responder la pregunta en su línea de asunto: las evaluaciones son muy confiables ya que se basan en hechos concretos y una profundidad de búsqueda impresionante. Por supuesto, las máquinas no son infalibles. Pero los jugadores b debemos recordar que Stockfish (o Rybka) juegan con las fortalezas de GM en hardware modesto. En el mejor hardware común , estiman sus clasificaciones en FIDE 3200. Esto es tan alto que solo los mejores humanos tienen una pequeña posibilidad de no perder.

Considere lo que esto significa; Yo (USCF 1650-ish) no tengo ninguna posibilidad contra una persona (por ejemplo, USCF 2050) que no tiene ninguna posibilidad contra una persona (por ejemplo, USCF 2450) que no tiene ninguna posibilidad contra una persona (por ejemplo, USCF 2850) que tiene una astilla de una posibilidad contra un programa comercial de primer nivel (FIDE 3200).

Por lo tanto, cuando Stockfish dice que un movimiento es mejor que otro, generalmente lo tomo al pie de la letra. Cuando conecte las bases de las mesas finales, esto comenzará a anunciar mate-in-30s, jajaja.

Tony Ennis
fuente
1
Muy buena respuesta. Siempre pensé que una evaluación de 1 significaba el valor de 1 peón de material. Además, chesstempo dice que los mejores movimientos en sus problemas son aquellos que ganan al menos 2 peones de material, por lo que consideré que una evaluación del motor de +2 o más para ganar, independientemente de la etapa en un juego. Sin embargo, he encontrado que el análisis de stockfish es defectuoso antes y he visto cómo no puede evaluar adecuadamente los finales. En esa nota, ¿sabes dónde puedo encontrar una base de tabla de finales?
chubbycantorset
Aquí está la tabla de 6 hombres en línea que Ed publicó: k4it.de/index.php?topic=egtb&lang=en
Tony Ennis
+1 para "No asumiría ningún valor determinado significa" una victoria segura "a menos que la máquina afirme que encontró un compañero".
ferir el
14

Diferentes motores tienen diferentes "escalas" para sus evaluaciones numéricas. Por ejemplo, en una posición típica en el medio juego con mucho juego por jugar, cuando Houdini dice +2.00 o mejor, es muy probable que las blancas tengan una ventaja ganadora (aunque incluso aquí he incluido calificaciones por alguna razón). Pero considere: uno podría modificar el código fuente de Houdini y duplicar los valores absolutos de todos los números involucrados en las evaluaciones; uno obtiene un motor de fuerza idéntica que produce un juego idéntico, pero ahora +4.00 significa lo que +2.00 solía significar. Esto ilustra que uno no debería esperar un umbral numérico uniforme en todos los motores que generalmente indica una ventaja ganadora.

Sin embargo, más que esto, es importante comprender que una evaluación numérica del motor de una posición (en oposición a una declaración directa de compañero inevitable) nunca se traduce estrictamente en "un juego ganado", incluso para un solo motor fijo. Un punto clave es que las evaluaciones numéricas no tienen un "significado" claro en términos generales de ajedrez, y son más bien un sustituto del pensamiento sensible que se utiliza para guiar mecánicamente a un motor hacia resultados generalmente deseables al influir en el movimiento que selecciona en cada punto. en el juego; Desde este punto de vista, lo más importante para el juego de un motor es la diferencia en la evaluación asignada a los movimientos potenciales, en lugar de cualquier cosa sobre los valores absolutos.involucrado. Los números son útiles para el motor en sí, que necesita algo concreto para tomar una decisión sobre un movimiento sobre otro, pero los humanos no deberíamos ser demasiado rápidos para leer más significado sobre las magnitudes involucradas con pensamientos como "+ X significa una victoria ".

En particular, cuanto más avanzamos hacia un final del juego en lugar de un medio juego, menos podemos usar una regla general (como mi +2.00 para Houdini en los juegos intermedios anteriores) sobre un cierto umbral que es suficiente para una victoria. Una razón clave para esto es la dificultad que tienen los motores para reconocer fortalezas, donde una gran cantidad de material adicional aún no es suficiente para ganar. Por ejemplo, cuando le doy a Stockfish esta posición,

NN - NN

después de un par de minutos pensé que estaba dando una evaluación de aproximadamente +7.00, y en una posición típica, cuando Stockfish dice eso, es casi seguro que tienes una victoria en tus manos. Sin embargo, este es un empate muerto, y un humano puede verlo fácilmente una vez que se da cuenta de que las negras simplemente pueden barajar la torre entre f6 y h6, y entonces (1) el peón h es inútil, y (2) el blanco el rey nunca podrá ayudar al ataque de la reina blanca. Eventualmente , Stockfish también reconocerá un empate aquí, una vez que se enfrente a 50 movimientos, digamos, o finalmente se quede sin diferentes movimientos para intentar y finalmente no pueda evitar una repetición, pero esos eventos están muy por debajo de la línea de profundidad de búsqueda.

La posición final de tu pregunta anterior con la que te vinculaste es similar a este tipo de fortaleza, en el sentido de que los peones pasados ​​conectados adicionales que las Blancas tienen allí son agradables y todo, pero en última instancia no lo suficiente como para ganar en esa posición. Si un motor calculara el tiempo suficiente para ver tanta información como está contenida en las bases de tablas, entonces su evaluación se reduciría a 0, pero mientras tanto, su algoritmo de evaluación no tiene nada mejor que seguir que dar un + para eso material adicional (que aún no sabe no tiene sentido).

ETD
fuente
+1 para "Más que esto, sin embargo, es importante entender que una evaluación numérica del motor de una posición (en oposición a una declaración directa de compañero inevitable) nunca se traduce estrictamente en un juego ganado"
ferita el
8

Creo que esta imagen describe la situación bastante bien. Fue creado a partir de 400k juegos, y considera solo material de pieza simple.

Probabilidad de ganar / ventaja de peón

Fuente: Pawn Advantage, Win Percentage y ELO

Thomas Ahle
fuente
1
Buena contribución! +1
ferir el
@Thomas Ahle: El gráfico es interesante. Pero el artículo original ya no está disponible, el enlace de wikispaces lamentablemente se ha caído. ¿Recuerdas el significado exacto de W = Win Probability? ¿Fue ganar vs perder ignorando los sorteos? ¿O fue la "puntuación esperada" teniendo en cuenta los sorteos?
Diedrsch
@Diedrsch He actualizado el enlace
Thomas Ahle