¿Los jugadores fuertes mueven sus piezas con diferentes frecuencias relativas que los jugadores débiles?

24

Esta pregunta es una rama de la anterior de Ramon Snir sobre la frecuencia con la que se mueven diferentes tipos de piezas, en promedio, en un juego de ajedrez. Mi pregunta:

¿Difieren los números relativos de movimientos para los tipos de piezas dados cuando uno mira los juegos de jugadores más fuertes en comparación con los juegos de jugadores más débiles? (Por ejemplo, tal vez los jugadores más débiles tienden a hacer más movimientos de peón a expensas de los movimientos de piezas, o hacen demasiados movimientos de reina. No lo sé).

Pude dar una respuesta a la pregunta anterior utilizando datos sin procesar que alguien más había extraído de una gran base de datos . Esos datos provienen de una muestra de juegos de 4M +, que van desde el juego de gran maestro hasta el juego de aficionados débil, y los números agregados para los totales de movimiento que se dan allí no discriminan en función de la fuerza del jugador. Responder a mi pregunta requerirá obtener datos separados para juegos entre jugadores fuertes y juegos entre jugadores débiles, y estoy buscando respuestas respaldadas por datos en lugar de anécdotas .

Aquí hay una forma más específica de mi pregunta:

¿Existe algún umbral de calificación Elo N tal que, cuando uno mira el número promedio de movimientos en un juego desglosado por tipo de pieza, hay una diferencia significativa entre lo que se encuentra en los juegos con jugadores por encima de N y lo que se encuentra en los juegos? con jugadores debajo de N.

Sería interesante si también se pudiera encontrar más de este tipo de cosas, es decir, diferencias concretas entre jugadores más fuertes y más débiles que pueden detectarse mediante la minería de datos. Tales hallazgos podrían apuntar a comportamientos específicos que frenan a los jugadores, o por el contrario, los que los impulsan hacia adelante. Ahora, tal vez no se encuentren tales diferencias con solo mirar este tipo de datos, pero me interesaría saber eso también.

ETD
fuente
Sospecho un poco sobre estos datos agregados, porque podrían perder el punto. Algunos juegos se deciden jugando con piezas, otros empujando peones. La frecuencia de una pieza movida no dice nada sobre la calidad de los movimientos. Hay una regla general que dice que no debes mover una sola pieza con frecuencia en la apertura. Sin embargo, los jugadores fuertes adoptan esta táctica a veces, si la posición lo justifica.
Michael
@Michael, estoy totalmente de acuerdo en que un factor como el que estoy preguntando no sería en sí mismo indicativo de un buen juego; si muevo mis tipos de piezas con la misma frecuencia relativa que Aronian, por ejemplo, eso no significa que estoy jugando tan bien como él. Pero esa es exactamente la razón por la que podría decirse que, por encima, por ejemplo, Elo 1800, no hay una diferencia detectable en estas frecuencias relativas (aunque hay una gran variedad de habilidades por encima de 1800), mientras que por debajo de 1800 está significativamente sesgada. Ese hallazgo en los datos podría indicar un factor detrás de un jugador que está por debajo de ese umbral de fuerza.
ETD
1
Tenga en cuenta que los datos le mostrarán lo que hacen los grandes maestros cuando se enfrentan a otros grandes maestros , y también con jugadores menores. Lo ideal sería comparar qué hacen mejores y peores jugadores en posiciones idénticas , pero eso probablemente no sería posible a través de la extracción de datos, excepto en la apertura.
Evan Harper
@EdDean: este es un tema bastante interesante. ¿Alguna idea de dónde obtuvo exactamente los juegos de 4M +? ¿Hay un lugar donde podamos obtener algo de tamaño significativo (digamos, 100K + juegos), de una fuente confiable pero gratuita? Estoy pensando específicamente en una fuente fácilmente descargable, en lugar de "búsqueda en línea".
Daniel B
1
Solo para seguir, Wikipedia tiene una buena página sobre colecciones de juegos de ajedrez . De estos, el primer enlace parecía con mucho el más prometedor (un número relativamente pequeño de PGN comprimidos para descargar), pero faltan secciones grandes (códigos ECO B a E), lo que haría que el análisis fuera unilateral e inútil.
Daniel B

Respuestas:

29

Aquí hay un análisis rápido y sucio basado en la base de datos PGN "Million Base". Hice esto con un poco de prisa, por lo que puede haber errores en mi programación o lógica. Por favor, no lo use para nada demasiado serio. Actualización - Nota: En realidad, acabo de notar que cometí un error con el conjunto de datos y lo limité a los primeros 1 millón de registros. Publicaré una actualización cuando tenga algo de tiempo libre para ejecutarla nuevamente en todo. Mientras tanto, estos números deberían ser interesantes, sin embargo.

Obteniendo los datos:

Obtuve el archivo Million Base 1.74 de esta URL , ya que el sitio top-5000.nl parece 404 cuando realmente intentas descargarlo. El archivo contiene poco más de 1 millón de juegos en formato de exportación PGN (es decir, fácil de analizar).

Desafortunadamente, más del 60% de los juegos carecían de información de calificación (estaba buscando etiquetas "WhiteELO" y "BlackELO"), y aún menos tenían calificaciones para ambos jugadores. Al final, decidí obtener un tamaño de muestra tan grande como pude, y conté los movimientos de un jugador si se conocía su calificación, independientemente de la calificación del otro jugador.

Proceso:

Los juegos se analizaron uno por uno, y si se conociera la calificación de un jugador, todos sus movimientos para ese juego se agregarían al agregado para el grupo de calificación del jugador. Elegí dividir las calificaciones en grupos de 100, por lo que, por ejemplo, 1600 a 1699 era un solo grupo.

Como el texto de movimiento real en PGN es SAN, utilicé el siguiente atajo para contar los movimientos: los movimientos de Caballero (N), Obispo (B), Torre (R), Reina (Q) y Rey (K) comienzan con la letra de su pieza. . El enroque (OO y OOO) se contó por separado, como un caso especial. Todos los movimientos restantes se contaron como movimientos de peón sin mayor examen.

No se realizó la limpieza de datos. No se intentó identificar valores atípicos y eliminarlos (por ejemplo, juegos extremadamente cortos y largos, etc.). Seguí, pero no incluí en el siguiente análisis, los resultados de clasificaciones por debajo de 1600: el tamaño de la muestra para estos juegos fue muy inferior a 100, lo que provocó grandes variaciones en los resultados. Los datos sin procesar se proporcionan al final de esta publicación.

Algunas deficiencias de la información: por el momento, solo he recopilado totales muy básicos y he proporcionado promedios. Estoy bastante seguro de que, en general, los datos NO se distribuyen normalmente, pero no podrán decir más sin generar los recuentos sin procesar y ejecutarlos a través de un programa estadístico. Puedo hacerlo, si hay interés. Por el momento, esto significa que no hay intervalos de confianza u otra información sobre la distribución de los números que representan esos promedios. Tampoco he verificado cuántos años abarca el conjunto de datos; si representa muchos años, puede ser beneficioso intentar corregir la intensidad general del campo.

Algunas tendencias

Una palabra sobre las calificaciones de los jugadores: los grupos de calificación más frecuentes encontrados fueron, en orden: 2400 a 2500, 2500 a 2600 y 2300 a 2400. Estos grupos de calificación proporcionaron el 72% de los juegos contados.

Mirando los resultados reales, la duración promedio del juego fue un poco sorprendente:

Número promedio de movimientos por grupo de calificación

Los grupos de calificación sub-2000 tuvieron juegos significativamente más cortos que los grupos más altos. Esto bien puede explicarse por la posibilidad de que estuvieran jugando oponentes más fuertes (ver la calificación promedio, arriba), y que fueron derrotados en menos movimientos. Esto parece ir en contra de los juegos un poco más cortos jugados por el grupo de calificación superior, aunque eso puede contribuir a un tamaño de muestra más pequeño.

Las diferencias relativamente grandes en la duración promedio del juego significaron que proporcionar la frecuencia de mover una pieza determinada, en lugar del número total de veces que se mueve una pieza, es quizás la comparación más justa. El cálculo de las frecuencias da como resultado el siguiente gráfico:

Mover frecuencias por pieza

Las siguientes tendencias parecen estar presentes:

  • La frecuencia de los movimientos de caballeros parece tener una ligera tendencia a la baja con la calificación.
  • Bishop mueve la tendencia hacia abajo hasta aproximadamente 2000, luego lentamente la tendencia hacia arriba.
  • Los movimientos de torre avanzan bruscamente hacia arriba aproximadamente en el mismo punto, y son más frecuentes que los movimientos de Bishop en el juego de alto nivel.
  • Los movimientos de peón parecen tener una ligera tendencia a la baja con una mayor calificación. Una gran excepción es la categoría superior, 2800 a 2900. Esto nos lleva al siguiente punto:
  • La categoría de calificación superior proporciona valores atípicos o contra-tendencias en una gran cantidad de mediciones. Esto puede explicarse de varias maneras: 1) el tamaño de la muestra es bastante bajo en 363, no pequeño, pero incluye el 10% del siguiente tamaño de muestra más pequeño. 2) Como están en la parte superior de los grupos de clasificación, nunca juegan contra oponentes "más fuertes" que ellos mismos. 3) O simplemente en este nivel, su estilo de juego ha trascendido los niveles debajo de ellos. Mi conjetura sería una combinación de 1) y 2).
  • Las diferencias en los movimientos de la reina y el enroque son muy pequeñas sin tendencias reales, aparte de una pequeña tendencia a la baja en ambos casos.
  • La frecuencia de los movimientos del rey tiene algunas de las mayores diferencias. No se ve una tendencia clara, y parece cambiar de dirección 3 o 4 veces.

Análisis mas extenso

Algunas ideas para futuros análisis:

  • Soluciones estadísticas básicas: creo que los juegos extremadamente cortos y largos probablemente deberían excluirse. Además, la distribución de los recuentos reales puede ser muy reveladora.
  • Dividir el análisis más arriba también puede arrojar resultados interesantes. Por ejemplo, me interesaría saber cómo coinciden las frecuencias para blanco y negro (¿son iguales o diferentes? ¿Por qué?).
  • La categorización por diferencia en la calificación también puede ser interesante, ¿juegan los jugadores que juegan un oponente mucho más fuerte (por ejemplo, 200 calificaciones por encima de ellos) juegan con diferentes frecuencias de movimiento? Desafortunadamente, esto requiere que se conozca el ELO de ambos jugadores, lo cual es raro en este conjunto de datos.
  • La tendencia al castillo corto frente al largo también puede variar según la calificación.
  • Las estadísticas de promoción de piezas, algunos análisis estructurales ligeros (p. Ej., Incidencia de peones duplicados, pases, pasadores, horquillas, mostrados por clasificación) pueden ser interesantes.
  • Los "mapas de calor" de la colocación de piezas en el tablero real, mostrados por clasificación, también podrían ser bastante interesantes.

Datos agregados en formato CSV

Para aquellos que quieran jugar con los datos, siéntanse libres.

Rango de clasificación, Tamaño de muestra, Duración promedio del juego, Movimientos promedio de peones, Movimientos promedio de caballero, Movimientos promedio de obispo, Movimientos promedio de torre, Movimientos promedio de reina, Movimientos promedio de rey, Castillos promedio

1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857
Daniel B
fuente
¡Agradable! Gracias por ejecutar los números aquí. Por cierto, si cree que alguna de las ideas en su sección de "análisis adicional" está lista para ser consultada, no dude en hacerlo.
ETD
1
@EdDean gracias, y probablemente haré un análisis adicional cuando el tiempo lo permita. También he notado algunas mejoras adicionales que se pueden hacer (por ejemplo, filtrar juegos de blitz y simultan, y posiblemente otros), por lo que probablemente será un poco de trabajo. Crearé una actualización cuando tenga algo.
Daniel B
1
Guau. Esa fue toda una respuesta. Fantástico.
James Tomasino
3
No me sorprendería si, por ejemplo, el mayor número de movimientos de torre entre jugadores fuertes solo significa que es más probable que terminen en finales de torre largos, en lugar de que muevan torres con más frecuencia en posiciones similares.
dfan
3
@dfan Estoy de acuerdo, estos números podrían tener más que ver con varios efectos de segundo orden, por ejemplo, jugadores con calificaciones más bajas que se equivocan al principio y no entran en un juego final largo, etc. Tengo varias ideas sobre cómo podría hacerse más preciso, pero lamentablemente no hay tiempo para implementarlos.
Daniel B