Supongamos que un juego ofrece un evento que, una vez completado, da una recompensa o no da nada. Se desconoce el mecanismo exacto para determinar si se otorga la recompensa, pero supongo que se usa un generador de números aleatorios, y si el resultado es mayor que algún valor codificado, obtendrá la recompensa.
Si básicamente quiero realizar ingeniería inversa, ¿qué valor utilizaron los programadores para determinar con qué frecuencia se otorga la recompensa (estimado 15-30%), ¿cómo calculo la cantidad de muestras que necesito?
Comencé con la sección "Estimador de probabilidad real" aquí: Verificando_si_un_coin_es_juego , pero no estoy seguro de estar yendo por el camino correcto. Estaba obteniendo resultados de ~ 1000 muestras necesarias para un error máximo del 3% con una confianza del 95%.
En definitiva, esto es lo que estoy tratando de resolver:
- El evento n. ° 1 otorga la recompensa 1.0R, X% del tiempo
- Evento # 2 da recompensa 1.4R, Y% del tiempo
Me gustaría estimar X e Y con la precisión suficiente para determinar qué evento es más eficiente. Los tamaños de muestra grandes son un problema ya que solo puedo obtener 1 muestra cada 20 minutos, como máximo.
Respuestas:
Suponiendo que sus ensayos individuales son independientes, observa una variante binomial donde decide sobre desea estimar . Ahora, el estimador de máxima verosimilitud de , la fracción de muestra tiene varianza que se logra para . Entonces, el error estándar es . Un intervalo de confianza aproximado aproximado de muestra grande tiene un ancho medio de alrededor de 2 errores estándar, por lo que para mantenerlo en un máximo de , por ejemplo, debe resolver que da
fuente
Sé que es menos elegante, pero tuve que simularlo. No solo construí una simulación bastante simple, sino que es poco elegante y lenta de ejecutar. Sin embargo, es lo suficientemente bueno. Una ventaja es que, siempre y cuando algunos de los conceptos básicos sean correctos, me dirá cuándo se cae el enfoque elegante.
El tamaño de la muestra variará en función del valor codificado.
Entonces aquí está el código:
Y aquí está la trama de tamaño de la muestra frente a la prevalencia que la incertidumbre en tales IC del 95% para la prevalencia es lo más cerca posible a 3% sin tener que pasar por encima.±
Lejos del 50%, parecen requerirse "observaciones algo menos", como sugirió kjetil.
Creo que puede obtener una estimación decente de la prevalencia antes de 400 muestras y ajustar su estrategia de muestreo a medida que avanza. No creo que deba haber un trote en el medio, por lo que puede subir N_loops hasta 10e3, y subir "by" en "my_prev" a 0.001.
fuente
Parece que se desea estimar para el Evento # 1 el valor de y para el Evento # 2 el valor de . Puede usar fácilmente la desigualdad de Hoeffding para determinar los límites aquí, o si desea aditivos, en lugar de límites multiplicativos, puede usar el límite de Chernoff .X Y
fuente