Tengo un conjunto de datos que detalla una gran cantidad de juegos de cricket (unos pocos miles). En el "cricket", los "jugadores de bolos" lanzan repetidamente una pelota a una sucesión de "bateadores". El jugador de bolos está tratando de sacar al bateador "fuera". A este respecto, es bastante similar a los lanzadores y bateadores en el béisbol.
Si tomé todo el conjunto de datos y dividí el número total de bolas que sacaron a un bateador por el número total de bolas lanzadas, puedo ver que tendría la probabilidad promedio de que un jugador de bolos saque a un bateador: será alrededor de 0.03 ( ojalá no me haya equivocado ya?)
Lo que me interesa es lo que puedo hacer para tratar de calcular la probabilidad de que un bateador específico sea lanzado por un jugador específico en la siguiente bola.
El conjunto de datos es lo suficientemente grande como para que cualquier jugador de bolos haya lanzado miles de bolas a una amplia gama de bateadores. Así que creo que podría simplemente dividir el número de outs que un jugador de bolos logró por el número de bolas que ha lanzado para calcular una nueva probabilidad de que ese jugador de boliche específico salga de la siguiente bola.
Mi problema es que el conjunto de datos no es lo suficientemente grande como para garantizar que un jugador de bolos dado haya lanzado un número estadísticamente significativo de bolas en cualquier bateador dado. Entonces, si estoy interesado en calcular la probabilidad de un out para un jugador de bolos específico frente a un bateador específico, no creo que esto no se pueda hacer de la misma manera simplista.
Mi pregunta es si el siguiente enfoque es válido:
En todo el conjunto de datos, la probabilidad de que una pelota salga es 0.03.
Si calculo que, en promedio, el jugador de bolos A tiene una probabilidad de salir de 0.06 (es decir, el doble de probabilidades que un jugador de bolos promedio),
y en promedio el bateador B tenía una probabilidad de estar fuera de 0.01 (un tercio tan probable como un bateador promedio),
¿Es válido decir que la probabilidad de que ese bateador específico esté en la próxima bola a ese jugador específico será 0.06 * (0.01 / 0.03) = 0.02?
fuente
Respuestas:
Desafortunadamente, esto quizás ya no sea exactamente lo que estás buscando.
Supongamos que tenemos un solo jugador de bolos y dos bateadores: Don Bradman y yo. (Sé muy poco sobre el cricket, así que si estoy haciendo algo aquí, avíseme). Los juegos son algo como:
En este caso, hay cuatro outs de 200 bolos, por lo que la probabilidad marginal de que un jugador de bolos saque a un bateador se estima en 4/200 = 2%. Pero en realidad, la probabilidad de que Don esté fuera es más del 1%, mientras que la mía es del 100%. Entonces, si eliges un bateador y un jugador de bolos al azar, la probabilidad de que este jugador de bolos saque a este bateador esta vez es más como (50% de probabilidad de que hayas elegido a Don) * (1% de probabilidad de que salga) + (50% de probabilidad de que hayas elegido yo) * (100% de probabilidad de salir) = 50.05%. Pero si eliges un lanzamiento al azar, entonces hay un 2% de posibilidades de que salga. Por lo tanto, debe pensar detenidamente sobre cuál de esos modelos de muestreo está pensando.
De todos modos, tu propuesta no es una locura. Más simbólicamente, sea el jugador de bolos ym el bateador; dejemos que f ( b , m ) sea la probabilidad de que b salga m . Entonces estás diciendo:b m f(b,m) b m
Esto tiene la propiedad deseada de que: es igualmente consistente si toma medias sobre solobom.
Tenga en cuenta que en este caso podemos asignar Su hipótesis es que se puede observarg(b)yh(m)razonablemente bien a partir de los datos. Mientras (a) tenga suficientes juegos [lo que hace] y (b) todos los jugadores jueguen entre sí con frecuencias razonablemente similares, entonces esto está bien.
Para explicar un poco (b): imagina que tienes datos de un montón de juegos profesionales, y un montón de juegos míos jugando con mis amigos. Si no hay superposición, tal vez me veo muy bien en comparación con mis amigos, así que tal vez pienses que soy mucho mejor que el peor jugador profesional. Esto es obviamente falso, pero no tienes ningún dato para refutar eso. Sin embargo, si tienes una pequeña superposición, donde jugué contra un jugador profesional una vez y fui destruido, entonces los datos respaldan la clasificación de mis amigos y yo como peores que los profesionales, pero tu método no lo justificaría. Técnicamente, el problema aquí es que está asumiendo que tiene una buena muestra para, por ejemplo,misi′[ f( b′, m ) ] , pero su distribución está sesgada.si′
Por supuesto, sus datos no se verán tan mal, pero dependiendo de la estructura de la liga o lo que sea, podría tener algunos elementos de ese problema.
Puede intentar solucionarlo con un enfoque diferente. El modelo propuesto para es en realidad una instancia de modelos de factorización de matriz de bajo rango comunes en el filtrado colaborativo , como en el problema de Netflix . Allí, eliges la función gF y h ( m ) para que sea de dimensión r , y represente f ( b , m ) = g ( b ) T h ( m ) . Puedes interpretar r > 1sol( b ) h ( m ) r F( b , m ) = g( b )Th ( m ) r > 1 como la complejidad de su modelo de un solo puntaje de "calidad" a tener puntajes a lo largo de múltiples dimensiones: tal vez ciertos jugadores de bolos lo hacen mejor contra ciertos tipos de bateadores. (Esto se ha hecho, por ejemplo, para juegos de la NBA ).
La razón por la que se llaman factorización matricial es porque si crea una matriz con tantas filas como bombines y tantas columnas como bateadores, puede escribir esto comoF
donde has factorizado unN×M
Por supuesto, no puedes observar directamente. El modelo habitual es que puedes observar entradas ruidosas de F al azar; en su caso, se llega a observar un sorteo de una distribución binomial con un número aleatorio de ensayos para cada entrada de F .F F F
Podría construir un modelo de probabilidad como, por ejemplo:
Este no es un modelo perfecto: por un lado, ignora quenorte Fyo j [ 0 , 1 ] sol H
fuente
No se puede inferir la probabilidad correcta de que B saldrá dado que A es el jugador de bolos si A y B nunca se encontraron en el campo solo en función de sus promedios con otros jugadores.
fuente