¿Cómo se decide el tamaño de la muestra cuando se encuesta a una población grande?

15

Australia está teniendo elecciones actualmente y, comprensiblemente, los medios informan diariamente nuevos resultados de encuestas políticas. En un país de 22 millones, ¿qué porcentaje de la población necesitaría ser muestreado para obtener un resultado estadísticamente válido?

¿Es posible que el uso de una muestra demasiado grande pueda afectar los resultados, o la validez estadística aumenta monotónicamente con el tamaño de la muestra?

brotchie
fuente

Respuestas:

13

El tamaño de la muestra no depende mucho del tamaño de la población, lo cual es contra-intuitivo para muchos.

La mayoría de las empresas encuestadoras utilizan 400 o 1000 personas en sus muestras.

Hay una razón para esto:

Un tamaño de muestra de 400 le dará un intervalo de confianza de +/- 5% 19 veces de 20 (95%)

Un tamaño de muestra de 1000 le dará un intervalo de confianza de +/- 3% 19 veces de 20 (95%)

Cuando mides una proporción cercana al 50% de todos modos.

Esta calculadora no está mal:

http://www.raosoft.com/samplesize.html

Neil McGuigan
fuente
66
Pero tenga en cuenta que todo esto se basa en el muestreo de una población homogénea. Si tiene una población heterogénea (por ejemplo, diferentes proporciones para diferentes subgrupos, muestreando partes raras de las poblaciones), esa estimación de varianza no es tan confiable. Las estimaciones que realmente está calculando aquí son (creo) para una población que representa su muestra. La pregunta es: ¿es esta población la que realmente le interesa?
probabilistico
9

Suponga que desea saber qué porcentaje de personas votaría por un candidato en particular (por ejemplo, , tenga en cuenta que, por definición, π está entre 0 y 100). Usted toma muestras de N votantes al azar para averiguar cómo votarían y su encuesta de estos N votantes le dice que el porcentaje es pππNNp . Entonces, le gustaría establecer un intervalo de confianza para el porcentaje verdadero.

Si supone que se distribuye normalmente (una suposición que puede o no justificarse según cuán 'grande' sea N ), entonces su intervalo de confianza para π sería de la siguiente forma: C I = [ p - k s d ( p ) , p + k s d ( p ) ] donde kpNπ

CI=[pksd(p),  p+ksd(p)]
k es una constante que depende del grado de confianza que desee (es decir, 95% o 99%, etc.).

Desde una perspectiva de sondeo, desea que el ancho de su intervalo de confianza sea 'bajo'. Por lo general, los encuestadores trabajan con el margen de error, que es básicamente la mitad del IC. En otras palabras, MoE=ksd(p) .

Así es como haríamos para calcular : Por definición, p = X i / N donde, X i = 1sd(p)p=Xi/NXi=1 si el votante vota por el candidato y 0i0 caso contrario.

Como muestreamos al azar a los votantes, podríamos suponer que es una variable aleatoria iid Bernoulli. Por lo tanto, V a r ( P ) = VXi

Var(P)=V(XiN)=V(Xi)N2=Nπ(1π)N2=π(1π)N.
sd(p)=π(1π)N
πsd(p)π=0.5
sd(p)=0.50.5/N=0.5/N
So, you see that the margin of error falls off exponentially with N and thus you really do not need very big samples to reduce your margin of error, or in other words N need not be very large for you to obtain a narrow confidence interval.

k=1.96N=1000

[p1.960.51000,  p+1.960.51000]=[p0.03,  p+0.03]
As we increase N the costs of polling go up linearly but the gains go down exponentially. That is the reason why pollsters usually cap N at 1000 as that gives them a reasonable error of margin under the worst possible assumption of π=50%.
Community
fuente
2

As a rough generalization, any time you sample a fraction of the people in a population, you're going to get a different answer than if you sample the same number again (but possibly different people).

So if you want to find out how many people in Australia are >= 30 years old, and if the true fraction (God told us) just happened to be precisely 0.4, and if we ask 100 people, the average number we can expect to say they are >= 30 is 100 x 0.4 = 40, and the standard deviation of that number is +/- sqrt(100 * 0.4 * 0.6) = sqrt(24) ~ 4.9 or 4.9% (Binomial distribution).

Since that square root is in there, when the sample size goes up by 100 times, the standard deviation goes down by 10 times. So in general, to reduce the uncertainty of a measurement like this by a factor of 10, you need to sample 100 times as many people. So if you ask 100 x 100 = 10000 people, the standard deviation would go up to 49 or, as a percent, down to 0.49%.

Mike Dunlavey
fuente