Modelando jugadores de cricket sacando a los bateadores

9

Tengo un conjunto de datos que detalla una gran cantidad de juegos de cricket (unos pocos miles). En el "cricket", los "jugadores de bolos" lanzan repetidamente una pelota a una sucesión de "bateadores". El jugador de bolos está tratando de sacar al bateador "fuera". A este respecto, es bastante similar a los lanzadores y bateadores en el béisbol.

Si tomé todo el conjunto de datos y dividí el número total de bolas que sacaron a un bateador por el número total de bolas lanzadas, puedo ver que tendría la probabilidad promedio de que un jugador de bolos saque a un bateador: será alrededor de 0.03 ( ojalá no me haya equivocado ya?)

Lo que me interesa es lo que puedo hacer para tratar de calcular la probabilidad de que un bateador específico sea lanzado por un jugador específico en la siguiente bola.

El conjunto de datos es lo suficientemente grande como para que cualquier jugador de bolos haya lanzado miles de bolas a una amplia gama de bateadores. Así que creo que podría simplemente dividir el número de outs que un jugador de bolos logró por el número de bolas que ha lanzado para calcular una nueva probabilidad de que ese jugador de boliche específico salga de la siguiente bola.

Mi problema es que el conjunto de datos no es lo suficientemente grande como para garantizar que un jugador de bolos dado haya lanzado un número estadísticamente significativo de bolas en cualquier bateador dado. Entonces, si estoy interesado en calcular la probabilidad de un out para un jugador de bolos específico frente a un bateador específico, no creo que esto no se pueda hacer de la misma manera simplista.

Mi pregunta es si el siguiente enfoque es válido:

  • En todo el conjunto de datos, la probabilidad de que una pelota salga es 0.03.

  • Si calculo que, en promedio, el jugador de bolos A tiene una probabilidad de salir de 0.06 (es decir, el doble de probabilidades que un jugador de bolos promedio),

  • y en promedio el bateador B tenía una probabilidad de estar fuera de 0.01 (un tercio tan probable como un bateador promedio),

  • ¿Es válido decir que la probabilidad de que ese bateador específico esté en la próxima bola a ese jugador específico será 0.06 * (0.01 / 0.03) = 0.02?

Ravi
fuente
Si el jugador de bolos eligió lanzar la pelota repetidamente , rápidamente se verían eliminados de poder jugar nuevamente en el juego.
Glen_b -Reinstale a Monica el

Respuestas:

2

Si tomo todo el conjunto de datos y divido el número total de bolas que sacaron a un bateador por el número total de bolas lanzadas, puedo ver que tendría la probabilidad promedio de que un jugador de bolos saque a un bateador: será alrededor de 0.03 (con suerte ¿No me he equivocado ya?)

Desafortunadamente, esto quizás ya no sea exactamente lo que estás buscando.

Supongamos que tenemos un solo jugador de bolos y dos bateadores: Don Bradman y yo. (Sé muy poco sobre el cricket, así que si estoy haciendo algo aquí, avíseme). Los juegos son algo como:

  • Don va al bate y sale al 99º tazón.
  • Voy a batear y salgo inmediatamente.
  • Don va al bate y sale al 99º tazón.
  • Voy a batear y salgo inmediatamente.

En este caso, hay cuatro outs de 200 bolos, por lo que la probabilidad marginal de que un jugador de bolos saque a un bateador se estima en 4/200 = 2%. Pero en realidad, la probabilidad de que Don esté fuera es más del 1%, mientras que la mía es del 100%. Entonces, si eliges un bateador y un jugador de bolos al azar, la probabilidad de que este jugador de bolos saque a este bateador esta vez es más como (50% de probabilidad de que hayas elegido a Don) * (1% de probabilidad de que salga) + (50% de probabilidad de que hayas elegido yo) * (100% de probabilidad de salir) = 50.05%. Pero si eliges un lanzamiento al azar, entonces hay un 2% de posibilidades de que salga. Por lo tanto, debe pensar detenidamente sobre cuál de esos modelos de muestreo está pensando.


De todos modos, tu propuesta no es una locura. Más simbólicamente, sea el jugador de bolos ym el bateador; dejemos que f ( b , m ) sea ​​la probabilidad de que b salga m . Entonces estás diciendo:simetroF(si,metro)simetro

f(b,m)=Em[f(b,m)]Eb[f(b,m)]Eb,m[f(b,m)].

Esto tiene la propiedad deseada de que: es igualmente consistente si toma medias sobre solobom.

Eb,m[f(b,m)]=Eb,m[f(b,m)]Eb,m[f(b,m)]Eb,m[f(b,m)]=Eb,m[f(b,metro)];
simetro

Tenga en cuenta que en este caso podemos asignar Su hipótesis es que se puede observarg(b)yh(m)razonablemente bien a partir de los datos. Mientras (a) tenga suficientes juegos [lo que hace] y (b) todos los jugadores jueguen entre sí con frecuencias razonablemente similares, entonces esto está bien.

C: =misi,metro[F(si,metro)]sol(si): =mimetro[F(si,metro)]/ /Ch(metro): =misi[F(si,metro)]/ /Casí que eso F(si,metro)=sol(si)h(metro).
sol(si)h(metro)

Para explicar un poco (b): imagina que tienes datos de un montón de juegos profesionales, y un montón de juegos míos jugando con mis amigos. Si no hay superposición, tal vez me veo muy bien en comparación con mis amigos, así que tal vez pienses que soy mucho mejor que el peor jugador profesional. Esto es obviamente falso, pero no tienes ningún dato para refutar eso. Sin embargo, si tienes una pequeña superposición, donde jugué contra un jugador profesional una vez y fui destruido, entonces los datos respaldan la clasificación de mis amigos y yo como peores que los profesionales, pero tu método no lo justificaría. Técnicamente, el problema aquí es que está asumiendo que tiene una buena muestra para, por ejemplo, misi[F(si,metro)], pero su distribución está sesgada.si

Por supuesto, sus datos no se verán tan mal, pero dependiendo de la estructura de la liga o lo que sea, podría tener algunos elementos de ese problema.


Puede intentar solucionarlo con un enfoque diferente. El modelo propuesto para es en realidad una instancia de modelos de factorización de matriz de bajo rango comunes en el filtrado colaborativo , como en el problema de Netflix . Allí, eliges la función gF y h ( m ) para que sea de dimensión r , y represente f ( b , m ) = g ( b ) T h ( m ) . Puedes interpretar r > 1sol(si)h(metro)rF(si,metro)=sol(si)Th(metro)r>1como la complejidad de su modelo de un solo puntaje de "calidad" a tener puntajes a lo largo de múltiples dimensiones: tal vez ciertos jugadores de bolos lo hacen mejor contra ciertos tipos de bateadores. (Esto se ha hecho, por ejemplo, para juegos de la NBA ).

La razón por la que se llaman factorización matricial es porque si crea una matriz con tantas filas como bombines y tantas columnas como bateadores, puede escribir esto comoF

donde has factorizado unN×M

[F(si1,metro1)F(si1,metro2)...F(si1,metroMETRO)F(si2,metro1)F(si2,metro2)...F(si2,metroMETRO)F(sinorte,metro1)F(sinorte,metro2)...F(sinorte,metroMETRO)]F=[sol(si1)sol(sinorte)]sol[h(metro1)h(metroMETRO)]THT
norte×METROmatriz en un N × r una G y una M × r uno H .Fnorte×rsolMETRO×rH

Por supuesto, no puedes observar directamente. El modelo habitual es que puedes observar entradas ruidosas de F al azar; en su caso, se llega a observar un sorteo de una distribución binomial con un número aleatorio de ensayos para cada entrada de F .FFF

Podría construir un modelo de probabilidad como, por ejemplo:

solyoknorte(0 0,σsol2)Hjknorte(0 0,σH2)Fyoj=solyoTHjRyojsiyonorteometroyounal(norteyoj,Fyoj)
norteyojRyojσsolσH

Este no es un modelo perfecto: por un lado, ignora que norteFyoj[0 0,1]solH

Dougal
fuente
1
@Ravi Esto fue largo, probablemente no se explica claramente, y no sé su nivel de experiencia con este tipo de problemas. Pero siéntase libre de hacer preguntas sobre cualquier parte que no esté clara. Además, dado que sus datos son uno a uno, también podría considerar usar say Elo .
Dougal
Gracias por tomarse el tiempo para escribir esta respuesta de muy alta calidad. Es cierto que solo conozco estadísticas básicas en este momento, así que mucho de esto es nuevo para mí. Sin embargo, me muestra muy claramente sobre qué leer para comprender este problema correctamente, que es exactamente lo que quería. Espero que después de algunos días (¡o años!) De estudio, pueda entender mejor su respuesta.
Ravi
Gracias. Tenía una pregunta sobre Elo. Como es bastante largo, abrí una nueva pregunta [aquí] :( stats.stackexchange.com/questions/230518/… )
Ravi
0

No se puede inferir la probabilidad correcta de que B saldrá dado que A es el jugador de bolos si A y B nunca se encontraron en el campo solo en función de sus promedios con otros jugadores.

Ay_
fuente
3
Aunque es posible que tenga razón sobre el cricket, la capacidad de los sistemas de clasificación en otros juegos de habilidad como el ajedrez para predecir los resultados de los partidos entre personas que nunca han competido sugiere lo contrario.
whuber
2
@whuber estuvo de acuerdo: creo que será casi tan cierto para el cricket como casi cualquier otra interacción competitiva. Cricket no es tan diferente.
Glen_b