Soy un gran fanático del fútbol y también estoy interesado en el aprendizaje automático. Como proyecto para mi curso de ML, estoy tratando de construir un modelo que prediga la posibilidad de ganar para el equipo local, dados los nombres del equipo local y visitante. (Consulto mi conjunto de datos y, en consecuencia, creo puntos de datos basados en coincidencias anteriores entre esos 2 equipos)
Tengo datos de varias temporadas para todos los equipos, sin embargo, tengo los siguientes problemas con los que me gustaría obtener algunos consejos. La EPL (English Premier League) tiene 20 equipos que juegan entre ellos en casa y fuera (380 juegos en total en una temporada). Por lo tanto, cada temporada, dos equipos juegan entre sí solo dos veces.
Tengo datos de los últimos 10 años, lo que resultó en 2 * 10 = 20 puntos de datos para los dos equipos. Sin embargo, no quiero pasar más de 3 años, ya que creo que los equipos cambian considerablemente con el tiempo (ManCity, Liverpool) y esto solo introduciría más errores en el sistema.
Por lo tanto, esto da como resultado alrededor de 6-8 puntos de datos para cada par de equipos. Sin embargo, tengo varias características (hasta 20+) para cada punto de datos, como goles de tiempo completo, goles de medio tiempo, pases, tiros, amarillos, rojos, etc. para ambos equipos, por lo que puedo incluir características como forma reciente, reciente formulario de inicio, formulario de ausencia reciente, etc.
Sin embargo, la idea de tener solo 6-8 puntos de datos para entrenar me parece incorrecta. ¿Alguna idea sobre cómo podría contrarrestar este problema? (si esto es un problema en primer lugar)
Respuestas:
¿Qué hay de mejorar su conjunto de datos teniendo en cuenta también algunos datos sobre los partidos contra el mismo oponente?
Ejemplo:
Además, en mi opinión, este tipo de fecha es mejor que los datos que propuso, porque los equipos del año pasado son a menudo equipos muy diferentes.
fuente