Australia está teniendo elecciones actualmente y, comprensiblemente, los medios informan diariamente nuevos resultados de encuestas políticas. En un país de 22 millones, ¿qué porcentaje de la población necesitaría ser muestreado para obtener un resultado estadísticamente válido?
¿Es posible que el uso de una muestra demasiado grande pueda afectar los resultados, o la validez estadística aumenta monotónicamente con el tamaño de la muestra?
fuente
Suponga que desea saber qué porcentaje de personas votaría por un candidato en particular (por ejemplo, , tenga en cuenta que, por definición, π está entre 0 y 100). Usted toma muestras de N votantes al azar para averiguar cómo votarían y su encuesta de estos N votantes le dice que el porcentaje es pπ π N N p . Entonces, le gustaría establecer un intervalo de confianza para el porcentaje verdadero.
Si supone que se distribuye normalmente (una suposición que puede o no justificarse según cuán 'grande' sea N ), entonces su intervalo de confianza para π sería de la siguiente forma: C I = [ p - k ∗ s d ( p ) , p + k ∗ s d ( p ) ] donde kp N π
Desde una perspectiva de sondeo, desea que el ancho de su intervalo de confianza sea 'bajo'. Por lo general, los encuestadores trabajan con el margen de error, que es básicamente la mitad del IC. En otras palabras,MoE=k∗sd(p) .
Así es como haríamos para calcular : Por definición, p = ∑ X i / N donde, X i = 1sd(p) p=∑Xi/N Xi=1 si el votante vota por el candidato y 0i 0 caso contrario.
Como muestreamos al azar a los votantes, podríamos suponer que es una variable aleatoria iid Bernoulli. Por lo tanto, V a r ( P ) = VXi
fuente
As a rough generalization, any time you sample a fraction of the people in a population, you're going to get a different answer than if you sample the same number again (but possibly different people).
So if you want to find out how many people in Australia are >= 30 years old, and if the true fraction (God told us) just happened to be precisely 0.4, and if we ask 100 people, the average number we can expect to say they are >= 30 is 100 x 0.4 = 40, and the standard deviation of that number is +/- sqrt(100 * 0.4 * 0.6) = sqrt(24) ~ 4.9 or 4.9% (Binomial distribution).
Since that square root is in there, when the sample size goes up by 100 times, the standard deviation goes down by 10 times. So in general, to reduce the uncertainty of a measurement like this by a factor of 10, you need to sample 100 times as many people. So if you ask 100 x 100 = 10000 people, the standard deviation would go up to 49 or, as a percent, down to 0.49%.
fuente