¿Cómo calcular el tamaño de la muestra para la simulación para afirmar algún nivel de bondad en mis resultados?

8

Soy un novato en estadísticas, por lo que me disculpo de antemano si estoy haciendo una pregunta mental. He buscado respuestas a mi pregunta, pero encuentro que muchos de los temas son demasiado específicos o van más allá de lo que actualmente entiendo.

Tengo un trabajo de simulación que incluye grandes conjuntos de datos que no se pueden simular exhaustivamente. Para el más pequeño de mis conjuntos de datos, una ejecución exhaustiva presenta la siguiente distribución de resultados de un total de 9180900 pruebas.

Resultado / Frecuencia:

  • 0 7183804
  • 1 1887089
  • 2 105296
  • 3 4571
  • 4 140

Lo que significan los números no importa; lo que importa es que los conjuntos de datos más grandes que tengo pueden extenderse a miles de millones de pruebas y llevar demasiado tiempo para ejecutarse. Necesito restringir la carga de trabajo.

Creo que debería poder tomar muestras del conjunto completo de pruebas para obtener una distribución para la muestra, e inferir (dentro de algunos límites) que los resultados de una simulación exhaustiva exhibirían aproximadamente la misma distribución. No hay sesgo inherente a las pruebas que se ejecutan, por lo que elegir entradas de forma uniforme y aleatoria debería proporcionar una muestra válida.

Lo que aún no entiendo es cómo debo hacer para seleccionar el tamaño de mi muestra. En particular, la distribución exhibe una cola extraña, y me temo que el muestreo demasiado pequeño perderá las frecuencias más bajas. (¡Las 140 ocurrencias de '4' representan solo el 0.0015% de la población!)

Entonces, mi pregunta es, ¿cuál es la mejor manera de calcular un tamaño de muestra con el que puedo afirmar algún nivel de bondad en mis resultados?

¿O estoy haciendo la pregunta equivocada?

Stephen
fuente

Respuestas:

6

Creo que la respuesta a su pregunta es un par de otras preguntas: ¿qué tan raro debe ser el resultado de una prueba determinada antes de que no le importe? ¿Qué tan seguro desea estar de que realmente encontrará al menos una prueba que se realice de esa manera si ocurre justo en el umbral donde dejó de preocuparse por eso? Dados esos valores, puede hacer un análisis de poder. No estoy 100% seguro de si necesita hacer un análisis de poder multinomial (que involucra más de un resultado) o no, supongo que uno binomial (ya sea la prueba rara o no) funcionará bien, por ejemplo http: / /statpages.org/proppowr.html . Alfa = .05, Potencia = 80%, Grupo en proporción 0, Grupo 1 proporción .0015. Tamaño de muestra relativo, 1; total: justo al sur de 13,000 pruebas. En el cual el número esperado de prueba 4s es ~ 20.

Eso lo ayudará a encontrar la cantidad de pruebas que necesita para detectar uno de esos resultados poco comunes. Sin embargo, si lo que realmente le importa es la frecuencia relativa, el problema es más difícil. Supongo que si simplemente multiplicara el N resultante del análisis de potencia por 20 o 30, encontraría una suposición razonable.

En la práctica, si realmente no necesita decidir el número de pruebas con anticipación, puede considerar ejecutar las pruebas hasta obtener 20 o 30 resultados 4s. Para cuando haya obtenido tantos 4s, debe comenzar a tener una estimación razonable, aunque no absoluta, de su frecuencia relativa IMO.

En última instancia, existen compensaciones entre el número de pruebas ejecutadas y la precisión. Necesita saber qué tan precisa quiere que sean sus estimaciones antes de poder determinar cuántos es "suficiente".

russellpierce
fuente
Correcto, análisis de poder. Sin embargo, creo que quizás me preocupe la frecuencia relativa. Trataré de leer eso también. Sin un número claramente definido de pruebas para ejecutar, he estado ejecutando el 2% de las pruebas, seleccionadas de manera uniforme al azar, en cada uno de los conjuntos de datos. El 2% es arbitrario, pero también manejable en los conjuntos de datos más grandes. Significa mis tamaño de la muestra aumenta con respecto a la población de las pruebas en un conjunto de datos, lo que puede conducir a más pruebas de lo que necesito en los grandes conjuntos de datos ...
Stephen
2

Creo que el análisis de poder es demasiado elaborado para lo que estás tratando de hacer, y podría decepcionarte.

Con un tamaño de muestra al norte de 9 millones, creo que su estimación p = Pr(X > 3) = 0.000015es bastante precisa. Entonces puede usar eso en un modelo binomial simple (n, p) para estimar un tamaño de muestra.

Digamos que su objetivo es observar al menos un evento "Grande" con una probabilidad del 99.9%. Entonces Pr(L > 0) = 1 - Pr(L = 0) = 1 - 0.999985^n = 0.999y su tamaño de muestra deseado es n = ln(0.001)/ln(0.999985) = 460514.

Por supuesto, si se siente afortunado y está dispuesto a correr un 10% de posibilidades de perderse un evento Grande, solo necesita un tamaño de muestra de n = 153505. Triplicar el tamaño de la muestra reduce en un factor la posibilidad de perderse el evento Grande. de 100, así que iría por los 460,000.

PERO ... si está buscando CINCO, su probabilidad es justo al sur de 1/9180902 y para observar al menos uno de LOS con 99.9% de probabilidad, ¡necesitaría un tamaño de muestra de aproximadamente 63.4 millones!

Tenga en cuenta los consejos de DrKNexus sobre la actualización de su estimación de las probabilidades para los eventos grandes, ya que podría no ser constante en todos sus conjuntos de datos.

Mike Anderson
fuente
El Pr (X> 3) que proporcione es diferente de los que hacen la pregunta 0.0015, es posible que desee revisarlo.
russellpierce