Esta pregunta es una rama de la anterior de Ramon Snir sobre la frecuencia con la que se mueven diferentes tipos de piezas, en promedio, en un juego de ajedrez. Mi pregunta:
¿Difieren los números relativos de movimientos para los tipos de piezas dados cuando uno mira los juegos de jugadores más fuertes en comparación con los juegos de jugadores más débiles? (Por ejemplo, tal vez los jugadores más débiles tienden a hacer más movimientos de peón a expensas de los movimientos de piezas, o hacen demasiados movimientos de reina. No lo sé).
Pude dar una respuesta a la pregunta anterior utilizando datos sin procesar que alguien más había extraído de una gran base de datos . Esos datos provienen de una muestra de juegos de 4M +, que van desde el juego de gran maestro hasta el juego de aficionados débil, y los números agregados para los totales de movimiento que se dan allí no discriminan en función de la fuerza del jugador. Responder a mi pregunta requerirá obtener datos separados para juegos entre jugadores fuertes y juegos entre jugadores débiles, y estoy buscando respuestas respaldadas por datos en lugar de anécdotas .
Aquí hay una forma más específica de mi pregunta:
¿Existe algún umbral de calificación Elo N tal que, cuando uno mira el número promedio de movimientos en un juego desglosado por tipo de pieza, hay una diferencia significativa entre lo que se encuentra en los juegos con jugadores por encima de N y lo que se encuentra en los juegos? con jugadores debajo de N.
Sería interesante si también se pudiera encontrar más de este tipo de cosas, es decir, diferencias concretas entre jugadores más fuertes y más débiles que pueden detectarse mediante la minería de datos. Tales hallazgos podrían apuntar a comportamientos específicos que frenan a los jugadores, o por el contrario, los que los impulsan hacia adelante. Ahora, tal vez no se encuentren tales diferencias con solo mirar este tipo de datos, pero me interesaría saber eso también.
Respuestas:
Aquí hay un análisis rápido y sucio basado en la base de datos PGN "Million Base". Hice esto con un poco de prisa, por lo que puede haber errores en mi programación o lógica. Por favor, no lo use para nada demasiado serio. Actualización - Nota: En realidad, acabo de notar que cometí un error con el conjunto de datos y lo limité a los primeros 1 millón de registros. Publicaré una actualización cuando tenga algo de tiempo libre para ejecutarla nuevamente en todo. Mientras tanto, estos números deberían ser interesantes, sin embargo.
Obteniendo los datos:
Obtuve el archivo Million Base 1.74 de esta URL , ya que el sitio top-5000.nl parece 404 cuando realmente intentas descargarlo. El archivo contiene poco más de 1 millón de juegos en formato de exportación PGN (es decir, fácil de analizar).
Desafortunadamente, más del 60% de los juegos carecían de información de calificación (estaba buscando etiquetas "WhiteELO" y "BlackELO"), y aún menos tenían calificaciones para ambos jugadores. Al final, decidí obtener un tamaño de muestra tan grande como pude, y conté los movimientos de un jugador si se conocía su calificación, independientemente de la calificación del otro jugador.
Proceso:
Los juegos se analizaron uno por uno, y si se conociera la calificación de un jugador, todos sus movimientos para ese juego se agregarían al agregado para el grupo de calificación del jugador. Elegí dividir las calificaciones en grupos de 100, por lo que, por ejemplo, 1600 a 1699 era un solo grupo.
Como el texto de movimiento real en PGN es SAN, utilicé el siguiente atajo para contar los movimientos: los movimientos de Caballero (N), Obispo (B), Torre (R), Reina (Q) y Rey (K) comienzan con la letra de su pieza. . El enroque (OO y OOO) se contó por separado, como un caso especial. Todos los movimientos restantes se contaron como movimientos de peón sin mayor examen.
No se realizó la limpieza de datos. No se intentó identificar valores atípicos y eliminarlos (por ejemplo, juegos extremadamente cortos y largos, etc.). Seguí, pero no incluí en el siguiente análisis, los resultados de clasificaciones por debajo de 1600: el tamaño de la muestra para estos juegos fue muy inferior a 100, lo que provocó grandes variaciones en los resultados. Los datos sin procesar se proporcionan al final de esta publicación.
Algunas deficiencias de la información: por el momento, solo he recopilado totales muy básicos y he proporcionado promedios. Estoy bastante seguro de que, en general, los datos NO se distribuyen normalmente, pero no podrán decir más sin generar los recuentos sin procesar y ejecutarlos a través de un programa estadístico. Puedo hacerlo, si hay interés. Por el momento, esto significa que no hay intervalos de confianza u otra información sobre la distribución de los números que representan esos promedios. Tampoco he verificado cuántos años abarca el conjunto de datos; si representa muchos años, puede ser beneficioso intentar corregir la intensidad general del campo.
Algunas tendencias
Una palabra sobre las calificaciones de los jugadores: los grupos de calificación más frecuentes encontrados fueron, en orden: 2400 a 2500, 2500 a 2600 y 2300 a 2400. Estos grupos de calificación proporcionaron el 72% de los juegos contados.
Mirando los resultados reales, la duración promedio del juego fue un poco sorprendente:
Los grupos de calificación sub-2000 tuvieron juegos significativamente más cortos que los grupos más altos. Esto bien puede explicarse por la posibilidad de que estuvieran jugando oponentes más fuertes (ver la calificación promedio, arriba), y que fueron derrotados en menos movimientos. Esto parece ir en contra de los juegos un poco más cortos jugados por el grupo de calificación superior, aunque eso puede contribuir a un tamaño de muestra más pequeño.
Las diferencias relativamente grandes en la duración promedio del juego significaron que proporcionar la frecuencia de mover una pieza determinada, en lugar del número total de veces que se mueve una pieza, es quizás la comparación más justa. El cálculo de las frecuencias da como resultado el siguiente gráfico:
Las siguientes tendencias parecen estar presentes:
Análisis mas extenso
Algunas ideas para futuros análisis:
Datos agregados en formato CSV
Para aquellos que quieran jugar con los datos, siéntanse libres.
Rango de clasificación, Tamaño de muestra, Duración promedio del juego, Movimientos promedio de peones, Movimientos promedio de caballero, Movimientos promedio de obispo, Movimientos promedio de torre, Movimientos promedio de reina, Movimientos promedio de rey, Castillos promedio
fuente