Soy un novato completo :)
Estoy haciendo un estudio con un tamaño de muestra de 10,000 de una población de aproximadamente 745,000. Cada muestra representa un "porcentaje de similitud". La gran mayoría de las muestras son alrededor del 97% -98%, pero algunas son entre 60% y 90%, es decir, la distribución está muy sesgada. Alrededor del 0.6% de los resultados son 0%, pero estos serán tratados por separado de la muestra.
La media de todas las 10,000 muestras es 97.7%, y solo en Excel, StdDev es 3.20. Entiendo que el StdDev no es realmente aplicable aquí porque los resultados no se distribuyen normalmente (¡y porque el +3.20 lo pondría por encima del 100%!).
Mis preguntas son:
- ¿Es apropiado el bootstrapping (un nuevo concepto para mí)?
- ¿Estoy arrancando correctamente :)
- ¿Qué es un tamaño de muestra suficiente?
Lo que estoy haciendo es volver a muestrear (con reemplazo) mis 10,000 resultados y calcular una nueva media. Hago esto miles de veces y almaceno cada media en una matriz. Luego calculo la "media de las medias" y este es mi resultado estadístico. Para calcular el IC del 99%, elijo el valor del 0.5% y el valor del 99.5%, y esto produce un rango muy ajustado: 97.4% - 98.0%. ¿Es este un resultado válido o estoy haciendo algo mal?
En cuanto al tamaño de la muestra, estoy muestreando solo alrededor del 1.3% de la población; no tengo idea si esto es "suficiente". ¿Cómo sé si mi muestra es representativa de la población? Idealmente, me gustaría tener una confianza del 99% de una media que sea +/- 0.50% puntos porcentuales (es decir, 97.2% - 98.2%).
Gracias de antemano por cualquier consejo!
fuente