¿Es apropiado el bootstrapping para estos datos continuos?

11

Soy un novato completo :)

Estoy haciendo un estudio con un tamaño de muestra de 10,000 de una población de aproximadamente 745,000. Cada muestra representa un "porcentaje de similitud". La gran mayoría de las muestras son alrededor del 97% -98%, pero algunas son entre 60% y 90%, es decir, la distribución está muy sesgada. Alrededor del 0.6% de los resultados son 0%, pero estos serán tratados por separado de la muestra.

La media de todas las 10,000 muestras es 97.7%, y solo en Excel, StdDev es 3.20. Entiendo que el StdDev no es realmente aplicable aquí porque los resultados no se distribuyen normalmente (¡y porque el +3.20 lo pondría por encima del 100%!).

Mis preguntas son:

  1. ¿Es apropiado el bootstrapping (un nuevo concepto para mí)?
  2. ¿Estoy arrancando correctamente :)
  3. ¿Qué es un tamaño de muestra suficiente?

Lo que estoy haciendo es volver a muestrear (con reemplazo) mis 10,000 resultados y calcular una nueva media. Hago esto miles de veces y almaceno cada media en una matriz. Luego calculo la "media de las medias" y este es mi resultado estadístico. Para calcular el IC del 99%, elijo el valor del 0.5% y el valor del 99.5%, y esto produce un rango muy ajustado: 97.4% - 98.0%. ¿Es este un resultado válido o estoy haciendo algo mal?

En cuanto al tamaño de la muestra, estoy muestreando solo alrededor del 1.3% de la población; no tengo idea si esto es "suficiente". ¿Cómo sé si mi muestra es representativa de la población? Idealmente, me gustaría tener una confianza del 99% de una media que sea +/- 0.50% puntos porcentuales (es decir, 97.2% - 98.2%).

Gracias de antemano por cualquier consejo!

Glenn W
fuente

Respuestas:

19

La desviación estándar es tan aplicable aquí como en cualquier otro lugar: proporciona información útil sobre la dispersión de los datos. En particular, el SD dividido por la raíz cuadrada del tamaño de la muestra es un error estándar: estima la dispersión de la distribución muestral de la media. Vamos a calcular:

3.2%/10000=0.032%=0.00032.

±0.50%

Aunque los datos no están distribuidos normalmente, la media muestral es extremadamente cercana a la distribución normal porque el tamaño de la muestra es muy grande. Aquí, por ejemplo, hay un histograma de una muestra con las mismas características que el suyo y, a su derecha, el histograma de las medias de mil muestras adicionales de la misma población.

Figura 1

Se ve muy cerca de lo normal, ¿no?

100α%Z1α/200Z1α/200=2.575899%

(0.9772.5758(0.032)/10000, 0.977+2.5758(0.032)/10000)=(97.62%,97.78%).

Se puede encontrar un tamaño de muestra suficiente invirtiendo esta relación para resolver el tamaño de la muestra. Aquí nos dice que necesita un tamaño de muestra alrededor

(3.2%/(0.5%/Z1α/200))2272.

2729999

Figura 2

(97.16%,98.21%)(97.19%,98.24%)

1000036272


R0.9770.032

set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample))      # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))
whuber
fuente
2
Sé que esta publicación es bastante antigua, pero es extremadamente útil. Gracias por compartir tu conocimiento.
RDizzl3