Soy un novato en estadísticas, por lo que me disculpo de antemano si estoy haciendo una pregunta mental. He buscado respuestas a mi pregunta, pero encuentro que muchos de los temas son demasiado específicos o van más allá de lo que actualmente entiendo.
Tengo un trabajo de simulación que incluye grandes conjuntos de datos que no se pueden simular exhaustivamente. Para el más pequeño de mis conjuntos de datos, una ejecución exhaustiva presenta la siguiente distribución de resultados de un total de 9180900 pruebas.
Resultado / Frecuencia:
- 0 7183804
- 1 1887089
- 2 105296
- 3 4571
- 4 140
Lo que significan los números no importa; lo que importa es que los conjuntos de datos más grandes que tengo pueden extenderse a miles de millones de pruebas y llevar demasiado tiempo para ejecutarse. Necesito restringir la carga de trabajo.
Creo que debería poder tomar muestras del conjunto completo de pruebas para obtener una distribución para la muestra, e inferir (dentro de algunos límites) que los resultados de una simulación exhaustiva exhibirían aproximadamente la misma distribución. No hay sesgo inherente a las pruebas que se ejecutan, por lo que elegir entradas de forma uniforme y aleatoria debería proporcionar una muestra válida.
Lo que aún no entiendo es cómo debo hacer para seleccionar el tamaño de mi muestra. En particular, la distribución exhibe una cola extraña, y me temo que el muestreo demasiado pequeño perderá las frecuencias más bajas. (¡Las 140 ocurrencias de '4' representan solo el 0.0015% de la población!)
Entonces, mi pregunta es, ¿cuál es la mejor manera de calcular un tamaño de muestra con el que puedo afirmar algún nivel de bondad en mis resultados?
¿O estoy haciendo la pregunta equivocada?
Creo que el análisis de poder es demasiado elaborado para lo que estás tratando de hacer, y podría decepcionarte.
Con un tamaño de muestra al norte de 9 millones, creo que su estimación
p = Pr(X > 3) = 0.000015
es bastante precisa. Entonces puede usar eso en un modelo binomial simple (n, p) para estimar un tamaño de muestra.Digamos que su objetivo es observar al menos un evento "Grande" con una probabilidad del 99.9%. Entonces
Pr(L > 0) = 1 - Pr(L = 0) = 1 - 0.999985^n = 0.999
y su tamaño de muestra deseado esn = ln(0.001)/ln(0.999985) = 460514
.Por supuesto, si se siente afortunado y está dispuesto a correr un 10% de posibilidades de perderse un evento Grande, solo necesita un tamaño de muestra de n = 153505. Triplicar el tamaño de la muestra reduce en un factor la posibilidad de perderse el evento Grande. de 100, así que iría por los 460,000.
PERO ... si está buscando CINCO, su probabilidad es justo al sur de 1/9180902 y para observar al menos uno de LOS con 99.9% de probabilidad, ¡necesitaría un tamaño de muestra de aproximadamente 63.4 millones!
Tenga en cuenta los consejos de DrKNexus sobre la actualización de su estimación de las probabilidades para los eventos grandes, ya que podría no ser constante en todos sus conjuntos de datos.
fuente