Espero poder hacer esta pregunta de la manera correcta. Tengo acceso a los datos de juego por juego, por lo que es más un problema con el mejor enfoque y la construcción de los datos correctamente.
Lo que estoy buscando hacer es calcular la probabilidad de ganar un juego de NHL dada la puntuación y el tiempo restante en la regulación. Me imagino que podría usar una regresión logística, pero no estoy seguro de cómo debería ser el conjunto de datos. ¿Tendría múltiples observaciones por juego y por cada porción de tiempo que me interese? ¿Tendría una observación por juego y ajustar modelos separados por porción de tiempo? ¿Es la regresión logística incluso el camino correcto?
¡Cualquier ayuda que pueda brindar será muy apreciada!
Atentamente.
time-series
probability
logistic
Btibert3
fuente
fuente
Respuestas:
Haga una regresión logística con covariables "tiempo de juego" y "goles (equipo local) - goles (equipo visitante)". Necesitará un efecto de interacción de estos términos ya que una ventaja de 2 goles en el medio tiempo tendrá un efecto mucho menor que una ventaja de 2 goles con solo 1 minuto restante. Su respuesta es "victoria (equipo local)".
No asuma simplemente la linealidad para esto, ajuste un modelo de coeficiente que varíe suavemente para el efecto de "objetivos (equipo local) - objetivos (equipo visitante)", por ejemplo, en R podría usar
mgcv
lagam
función con una fórmula de modelo comowin_home ~ s(time_remaining, by=lead_home)
. Conviertalead_home
en un factor, de modo que obtenga un efecto diferente detime_remaining
por cada valor delead_home
.Crearía múltiples observaciones por juego, una por cada porción de tiempo que le interese.
fuente
win_home
es constante en el nivel de agrupación (es decir, para todos los segmentos de tiempo para cualquier coincidencia es 0 o 1), incluyendo, por ejemplo, una intercepción aleatoria, para las coincidencias solo dará como resultado grandes problemas de separación en este contexto.Comenzaría a simular los datos de un modelo de juguete. Algo como:
Ahora tenemos algo con lo que jugar. También podría usar los datos en bruto, pero me parece muy útil simular los datos para pensar detenidamente.
A continuación, simplemente trazaría los datos, es decir, el tiempo de trama del juego versus el plomo a casa, con la escala de colores correspondiente a la probabilidad observada de ganar.
Esto lo ayudará a encontrar el soporte de sus datos y le dará una idea cruda de cómo son las probabilidades.
fuente
Echa un vistazo a los nerds de estadísticas en Football Outsiders , así como al libro Mathletics para inspirarte.
Los chicos de Football Outsiders hacen predicciones de juego basadas en cada jugada en un juego de fútbol.
Winston en Mathletics también utiliza algunas técnicas, como la programación dinámica.
También puede considerar otros algoritmos como SVM.
fuente