¿Hay alguna alternativa a la simulación para determinar la distribución del número de eventos de dos procesos de Poisson no homogéneos dependientes?

8

Un modelo de "estado del arte" para la distribución de goles marcados en un partido de fútbol es el de Dixon y Robinson (1998) "Un modelo de proceso de nacimiento para partidos de fútbol de asociación" que explica dos fenómenos clave:

1) Se marcan más goles al final de los partidos que al inicio (se supone que se debe a la fatiga sufrida por ambos equipos)

2) Las tasas de puntaje dependen de la línea de puntaje actual por una miríada de razones, como equipos con un líder que se vuelve complaciente o equipos que prefieren jugar un empate en lugar de arriesgarse a perder al ganar.

El modelo supone que los goles marcados por los equipos local y visitante en un partido siguen procesos no homogéneos de Poisson. Dejart denotar el tiempo transcurrido en un partido, normalizado para caer entre 0 y 1, la xvector de longitud tH denotar los momentos en que el equipo local marcó goles y el yvector de longitud tAdenotar los momentos en que el equipo visitante marcó goles. La probabilidad del partido es entonces

L(tH,tA)=exp(01λ(t)dt)i=1xλ(tHi)x!exp(01μ(t)dt)j=1yμ(tAj)y!

dónde λ(t) es la tasa de puntuación para el equipo local en ese momento t depende de una combinación de factores homogéneos en el tiempo (por ejemplo, capacidad de ataque del equipo local versus capacidad de defensa del equipo visitante, ventaja en el hogar) y factores no homogéneos en el tiempo (por ejemplo, línea de puntaje en el momento t) Similarmente paraμ(t).

Los dos procesos son dependientes porque cuando un equipo anota la línea de puntaje cambia y las tasas de puntaje dependen de la línea de puntaje.

La probabilidad se puede evaluar fácilmente llevando a cabo la integración en el exponente numéricamente. Por lo tanto, es sencillo calcular los parámetros del modelo (habilidades de equipo, ventaja de local, efecto de tiempo, parámetros de línea de puntaje, etc.) a través de la máxima probabilidad.

En términos de predicción, las cantidades obvias de interés son:

  • P(x>y): el equipo local gana
  • P(x<y): el equipo visitante gana
  • P(x=y): dibujar
  • Probabilidad de líneas de puntuación particulares, p. Ej. P(x=1,y=0)
  • Probabilidad de goles totales en el partido, p. Ej. P((x+y)<2.5)

Para calcular estas cantidades (aproximadamente) dado un conjunto de parámetros del modelo, podríamos utilizar los métodos de Monte Carlo para generar coincidencias de acuerdo con estos procesos y luego calcular las frecuencias de cada puntaje final. La simulación de los procesos es relativamente sencilla, al generar objetivos a partir de un único proceso de Poisson homogéneo envolvente junto con un muestreo de rechazo y luego distribuirlos al equipo local o visitante en consecuencia.

El inconveniente de este enfoque es, obviamente, la carga computacional de la simulación de Monte Carlo. Considere intentar hacer predicciones en tiempo real a medida que se juegan los partidos, de los cuales pueden ocurrir muchos simultáneamente, y rápidamente se convierte en un motivo de preocupación.

Mi pregunta, por lo tanto, es si hay algún enfoque alternativo que podamos considerar que no incurra, como un alto costo computacional (incluso si se basan en una aproximación que sacrifica la precisión para facilitar el cálculo).


Para mayor claridad, no estoy buscando sugerencias (básicas) sobre cómo implementar eficientemente la simulación de Monte Carlo, que ya he escrito en C de subprocesos múltiples, utiliza números cuasialeatorios que se generaron previamente mediante el desenrollado y explota el adelgazamiento por partes para lograr una muy alta tasa de aceptación. Si crees que todavía hay margen para un aumento dramático del rendimiento, entonces, por supuesto, soy todo oídos, ¡pero realmente estoy buscando un enfoque fundamentalmente diferente!

M. Berk
fuente

Respuestas:

1

Ese es un problema interesante. No estoy seguro de haber buscado todo lo que quieres decir, pero ¿has pensado en reformular algunos de tus problemas como pruebas de hipótesis? Me gusta:

  • hipótesis nula H0: x>y
  • hipótesis alternativa H1: xy

y luego realizar una prueba de razón de verosimilitud? Luego, el valor p extraído le dice si H0 es rechazado dado un cierto nivel de significancia.

La razón por la que menciono esto es que realizar una prueba de razón de probabilidad es lo mismo que realizar una minimización 2 que puede ser mucho más rápida que la integración de MC. Sin embargo, la integral dentro del exp aún podría requerir una integración.

HTH

Señor Renard
fuente
0

Primero abordo 2 problemas con la pregunta:

  1. Los llamados factores no homogéneos del tiempo impiden que el proceso sea Poisson, porque el número de objetivos en algún intervalo de tiempo no es independiente del número anterior de objetivos. En otras palabras, la tasa de transición depende del estado. Incluso el artículo vinculado (P.7) llama a cada proceso un proceso de nacimiento, reduciéndose solo a un proceso de Poisson homogéneo cuando la intensidad es constante.

  2. x! y y!debe excluirse de la probabilidad, como en la ecuación. (3.5) del artículo vinculado. Presumiblemente, el OP pensó la ecuación. (3.5) dio la probabilidad de una coincidencia con algún conjunto de tiempos de llegada no ordenados, que tendrían que dividirse por el número de permutaciones del conjunto para obtener la probabilidad de un conjunto ordenado. Esto es innecesario, y habría estado mal incluso si la ecuación. (3.5) eran la probabilidad de un conjunto desordenado, porque las intensidades dependientes del tiempo darían como resultado diferentes probabilidades para cada pedido.

Luego, para abordar la cuestión de la distribución de la línea de puntuación, señalaré que, aunque no se menciona en el artículo vinculado, la línea de puntuación se puede modelar como un proceso de nacimiento-muerte :

px,y(t)=λx1,y(t)px1,y(t)+μx,y1(t)px,y1(t)(λx,y(t)+μx,y(t))px,y(t)
px,y(0)=δx,y
λ1,y(t)=0
μx,1(t)=0
La primera ecuación es un balance de población o ecuación maestra, cuya solución ha sido ampliamente estudiada, por ejemplo, por Feller. No creo que las soluciones analíticas existan en general, mientras que la solución numérica requiere truncamiento en algún momentox y y. El máximo a utilizar depende de las probabilidades a calcular depx,y(t). P.ejp1,0(t) requiere solo un máximo x=1, P(x+y<2.5) requiere un máximo de 2, mientras que P(x>y), P(y<x)y P(x=y) todos requieren máximos lo suficientemente grandes como para que px>max,y y px,y>max son insignificantes

Son posibles muchas soluciones numéricas, por ejemplo, métodos de diferencia finita / elemento / espectral. Si se requieren máximos grandes, aproximando las ecuaciones de diferencia con una ecuación diferencial en continuox y y Puede ser más eficiente.

Aquí hay un código de Mathematica que uno podría usar como plantilla, con máximos, λx,y(t)y μx,y(t) a especificar:

max=2;
\[Lambda][x_,y_,t_]=1;
\[Mu][x_,y_,t_]=1;

\[Lambda][-1,y_,t_]=0;
\[Mu][x_,-1,t_]=0;

DSolve[Flatten[Table[{
D[p[x,y,t],t]==\[Lambda][x-1,y,t]p[x-1,y,t]+\[Mu][x,y-1,t]p[x,y-1,t]
             -(\[Lambda][x,y,t]+\[Mu][x,y,t])p[x,y,t],
p[x,y,0]==DiscreteDelta[x,y]},{x,0,max-1},{y,0,max-1}]],
Flatten[Table[p[x,y,t],{x,0,max-1},{y,0,max-1}]],t]

{{p(0,0,t)e2t,p(0,1,t)e2tt,p(1,0,t)e2tt,p(1,1,t)e2tt2}}
obsoleto
fuente