Estoy tratando de estimar la media de una distribución gaussiana más o menos a través del muestreo. No tengo conocimiento previo sobre su media o su varianza. Cada muestra es costosa de obtener. ¿Cómo decido dinámicamente cuántas muestras necesito para obtener un cierto nivel de confianza / precisión? Alternativamente, ¿cómo sé cuándo puedo dejar de tomar muestras?
Todas las respuestas a preguntas como esta que puedo encontrar parecen suponer cierto conocimiento de la variación, pero también necesito descubrir eso en el camino. Otros están orientados a realizar encuestas, y no me queda claro (principiante que soy) cómo eso se generaliza: mi media no es w / in [0,1], etc.
Creo que esta es probablemente una pregunta simple con una respuesta bien conocida, pero mi Google-fu me está fallando. Incluso decirme qué buscar sería útil.
fuente
Respuestas:
Debe buscar 'Diseños adaptativos bayesianos'. La idea básica es la siguiente:
Inicializa lo anterior para los parámetros de interés.
Antes de cualquier recopilación de datos, sus antecedentes serían difusos. A medida que ingresan datos adicionales, vuelve a configurar el anterior para que sea el posterior que corresponde a los 'datos anteriores + hasta ese momento'.
Recolectar datos.
Calcule el posterior basado en datos + previos. La parte posterior se usa como la anterior en el paso 1 si realmente recopila datos adicionales.
Evaluar si se cumplen sus criterios de detención
Los criterios de detención podrían incluir algo como el intervalo creíble del 95% no debería ser mayor que unidades para los parámetros de interés. También podría tener funciones de pérdida más formales asociadas con los parámetros de interés y calcular la pérdida esperada con respecto a la distribución posterior del parámetro de interés.± ϵ
Luego repita los pasos 1, 2 y 3 hasta que se cumplan los criterios de detención del paso 4.
fuente
Normalmente querrá al menos 30 invocar el teorema del límite central (aunque esto es algo arbitrario). A diferencia del caso de las encuestas, etc., que se modelan utilizando la distribución binomial, no puede determinar de antemano un tamaño de muestra que garantice un nivel de precisión con un proceso gaussiano; depende de los residuos que obtenga que determinen el error estándar.
Cabe señalar que si tiene una estrategia de muestreo sólida, puede obtener resultados mucho más precisos que con un tamaño de muestra mucho mayor con una estrategia deficiente.
fuente