¿Cuál es la precisión de los datos obtenidos a través de una muestra aleatoria?

8

Soy un novato en las estadísticas, así que si hago suposiciones erróneas aquí, por favor dígame.

Hay una población Nde personas. (Por ejemplo, Npueden ser 1,000,000.) Algunas de las personas son pelirrojas. Tomo una muestra nde personas (digamos 10,) y encuentro que json pelirrojas.

¿Qué puedo decir sobre la proporción general de pelirrojos en la población? Quiero decir, mi mejor aproximación es probablemente j/n, pero ¿cuál sería la desviación estándar de esa aproximación?

Por cierto, ¿cuál es el término aceptado para esto?

Ram Rachum
fuente
¿Por qué siempre molestamos a los jengibres? :)
Brandon Bertelsen

Respuestas:

8

Puede pensar en esto como un ensayo binomial: sus ensayos están muestreando "pelirrojo" o "no cabeza lectora". En ese caso, puede construir un intervalo de confianza para su proporción de muestra ( ) como se documenta en Wikipedia:j/n

Un intervalo de confianza del 95% básicamente dice que, usando el mismo algoritmo de muestreo, si repite esto 100 veces, la proporción verdadera estaría en el intervalo establecido 95 veces.

Actualización Por cierto, creo que el término que está buscando podría ser error estándar, que es la desviación estándar de las proporciones muestreadas. En este caso, es dondepes su proporción estimada. Tenga en cuenta que a medida quenaumenta, el error estándar disminuye.p(1p)npn

ars
fuente
44
@ars: Todo está correcto y bien establecido. Pero parece que falta algo: la desviación estándar de la "mejor aproximación" j / n depende de la proporción real de pelirrojas, no de la estimada. El problema, por supuesto, es que no sabemos la verdadera proporción. Pero el hecho es que el error estándar en realidad no es igual a la desviación estándar de la aproximación, excepto cuando la estimación es exactamente correcta. Sé que no necesita recordar esta sutileza, ni la mayoría de los lectores, pero es bastante relevante para la pregunta original.
whuber
jnjn
2
@ cool-RR: ars es correcto sobre el error estándar. El punto es que el error estándar en sí mismo es una estimación de cuán precisa es la estadística j / n para estimar la proporción verdadera. Por ejemplo, suponga que el 10% de todas las personas son pelirrojas. Entonces, en muchos casos, puede suceder que j = 0 cuando n = 10. Obtendría un SE de Sqrt (0 (1-0) / 10) = 0. Esto obviamente subestima la precisión real de su estadística p = j / n = 0/10. La verdadera precisión es Sqrt (0.10 (1-0.90) / n), ¡aunque no lo sepas!
whuber
j=0n=10j=0n=10
1
@ cool-RR: para muestras pequeñas, use el intervalo Agresti-Coull especificado en el enlace de Wikipedia sobre intervalos de confianza. Según sus observaciones, obtendrá un intervalo del 95% para la estimación. Entonces, lo que sabrá, basado en lo que observó, es inherente a la definición de un IC del 95%.
ars
0

nN

SE^=NnNp^q^n,

p^j/nq^=1p^

NnN

pnnp>10j=0SESE^

njNp

p(1p)1/412np^q^nn=1,111SE^±N

ronaf
fuente