¿Por qué las encuestas políticas tienen muestras tan grandes?

32

Cuando veo las noticias, me doy cuenta de que las encuestas de Gallup para cosas como las elecciones presidenciales tienen tamaños de muestra [supongo al azar] de más de 1,000. De lo que recuerdo de las estadísticas de la universidad fue que un tamaño de muestra de 30 era una muestra "significativamente grande". Se hizo parecer que un tamaño de muestra superior a 30 no tiene sentido debido a los rendimientos decrecientes.

sampling sample-size power-analysis samplesize999
fuente

9

Finalmente, alguien está aquí para hablar sobre la ropa nueva del Emperador Big Data. ¿Quién necesita los usuarios de 600M Tweeter si puede obtener todas las respuestas del tamaño de la muestra de estadísticas universitarias de 30.

StasK

1

StasK, eso es gracioso.

Aaron Hall

Mejor comentario @StasK

Brennan

36

Wayne ha abordado el tema "30" bastante bien (mi propia regla general: es probable que la mención del número 30 en relación con las estadísticas sea incorrecta).

¿Por qué se usan a menudo los números cercanos a 1000?

A menudo se usan números de alrededor de 1000-2000 en las encuestas, incluso en el caso de una proporción simple (" ¿Está a favor de lo que sea $<$ $>$ ?").

Esto se hace para obtener estimaciones razonablemente precisas de la proporción.

Si se supone un muestreo binomial, el error estándar * de la proporción de la muestra es mayor cuando la proporción es - pero ese límite superior sigue siendo una aproximación bastante buena para proporciones entre aproximadamente el 25% y el 75%. $\frac{1}{2}$

* "error estándar" = "desviación estándar de la distribución de"

Un objetivo común es estimar porcentajes dentro de aproximadamente del porcentaje verdadero, aproximadamente el del tiempo. Ese se llama " margen de error ". $\pm 3\%$ $95\%$ $3\%$

En el error estándar del "peor de los casos" en el muestreo binomial, esto lleva a:

$1.96 \times \sqrt{\frac{1}{2}\cdot(1-\frac{1}{2})/n} \leq 0.03$

$0.98 \times \sqrt{1/n} \leq 0.03$

$\sqrt{n} \geq 0.98/0.03$

$n \geq 1067.11$

... o 'un poco más de 1000'.

Entonces, si encuesta a 1000 personas al azar de la población sobre la que desea hacer inferencias, y el 58% de la muestra respalda la propuesta, puede estar razonablemente seguro de que la proporción de la población está entre 55% y 61%.

(A veces se pueden usar otros valores para el margen de error, como 2.5%. Si reduce a la mitad el margen de error, el tamaño de la muestra aumenta en un múltiplo de 4.)

En encuestas complejas donde se necesita una estimación precisa de una proporción en alguna subpoblación (por ejemplo, la proporción de graduados universitarios negros de Texas a favor de la propuesta), los números pueden ser lo suficientemente grandes como para que ese subgrupo sea de varios cientos, tal vez implicando decenas de miles de respuestas en total.

Como eso puede volverse poco práctico rápidamente, es común dividir la población en subpoblaciones (estratos) y tomar muestras de cada una por separado. Aun así, puede terminar con algunas encuestas muy grandes.

Se hizo parecer que un tamaño de muestra superior a 30 no tiene sentido debido a los rendimientos decrecientes.

Depende del tamaño del efecto y la variabilidad relativa. El efecto sobre la varianza significa que puede necesitar algunas muestras bastante grandes en algunas situaciones. $\sqrt n$

Respondí una pregunta aquí (creo que era de un ingeniero) que estaba tratando con tamaños de muestra muy grandes (cerca de un millón, si recuerdo bien) pero estaba buscando efectos muy pequeños.

Veamos qué nos deja una muestra aleatoria con un tamaño de muestra de 30 al estimar una proporción de muestra.

Imaginemos que preguntamos a 30 personas si en general aprobaron la dirección del Estado de la Unión (totalmente de acuerdo, de acuerdo, en desacuerdo, totalmente en desacuerdo). Además, imagine que el interés radica en la proporción que está de acuerdo o totalmente de acuerdo.

Digamos que 11 de los entrevistados estuvieron de acuerdo y 5 totalmente de acuerdo, para un total de 16.

16/30 es aproximadamente el 53%. ¿Cuáles son nuestros límites para la proporción en la población (con digamos un intervalo del 95%)?

Podemos fijar la proporción de la población en algún lugar entre el 35% y el 71% (aproximadamente), si nuestras suposiciones se mantienen.

No es tan útil.

Glen_b -Reinstate a Monica
fuente

+1. Toda la respuesta es excelente, pero la primera línea valió un voto positivo en sí misma.

Matt Krause

1

Y luego, por supuesto, podría revertir el cálculo y calcular el margen de error con una muestra de 30 ...

Calimo

Creo que su último párrafo es donde entra el muestreo estratificado. Como han dicho otros, el muestreo aleatorio simple de la población de votantes elegibles en realidad no se realiza a escala nacional.

Wayne

@Wayne gracias; Regresé y agregué un poco al final.

Glen_b -Reinstale a Monica

2

+1, y también me gustan las implicaciones paradójicas de su regla general.

James Stanley

10

Esa regla general en particular sugiere que 30 puntos son suficientes para suponer que los datos se distribuyen normalmente (es decir, parece una curva de campana), pero esta es, en el mejor de los casos, una guía aproximada. Si esto es importante, verifique sus datos! Esto sugiere que desearía al menos 30 encuestados para su encuesta si su análisis depende de estos supuestos, pero también hay otros factores.

Un factor importante es el "tamaño del efecto". La mayoría de las razas tienden a ser bastante cercanas, por lo que se requieren muestras bastante grandes para detectar de manera confiable estas diferencias. (Si está interesado en determinar el tamaño de muestra "correcto", debe analizar el análisis de potencia ). Si tiene una variable aleatoria de Bernoulli (algo con dos resultados) que es aproximadamente 50:50, entonces necesita alrededor de 1000 ensayos para que el error estándar baje al 1.5%. Probablemente sea lo suficientemente preciso como para predecir el resultado de una carrera (las últimas 4 elecciones presidenciales de EE. UU. Tuvieron un margen medio de ~ 3.2 por ciento), lo que coincide muy bien con su observación.

Los datos de la encuesta a menudo se dividen y se cortan en cubitos de diferentes maneras: "¿El candidato lidera con hombres que poseen armas de más de 75 años? o lo que sea. Esto requiere muestras aún más grandes porque cada encuestado se ajusta solo a unas pocas de estas categorías.

Las encuestas presidenciales a veces también se "agrupan" con otras preguntas de la encuesta (por ejemplo, las carreras del Congreso). Dado que estos varían de estado a estado, uno termina con algunos datos de sondeo "adicionales".

p

$p$

1 - p

$1-p$

$p(1-p)$ $\sqrt{\frac{p(1-p)}{n}}$ $p=0.5$

Matt Krause
fuente

44

+1, sin embargo, "30 puntos son suficientes para suponer que los datos se distribuyen normalmente" no es cierto. Es muy posible que la gente crea esto, pero la cantidad de datos necesarios para que el CLT haga que la distribución de muestreo converja adecuadamente a un nivel normal depende de la naturaleza de la distribución de datos (ver aquí ). En cambio, 30 (puede ser) aproximadamente suficiente si los datos ya son normales, pero la SD se estima a partir del mismo conjunto de datos (cf, la distribución t).

gung - Restablece a Monica

@Gung, totalmente de acuerdo, pero no quería ir demasiado lejos de los rieles. Siéntase libre de editar más si cree que el punto debe hacerse aún más fuerte.

Matt Krause

8

$p = 0.5$ $n$

$p$ $X_1$ $p$ $1-p$ $X_1$ $p$ $X_1 \sim Bernouilli(p)$ $X_1$ $\mathbb{E}(X_1)=\sum{xP(X_1=x)}$ $x$ $X_1$ $1-p$ $p$ $\mathbb{E}(X_1)=0(1-p)+1(p)=p$ $X_1$

$X_1$ $X_1 = 0$ $X_1^2 = 0$ $X_1 = 1$ $X_1^2 = 1$ $X_1^2 = X_1$ $\mathbb{E}(X_1^2)=p$ $Var(X_1)=\mathbb{E}(X_1^2)-\mathbb{E}(X_1)^2=p - p^2 = p(1-p)$ $\sigma_{X_1}=\sqrt{p(1-p)}$

$n$ $p$ $n$ $X_1$ $X_2$ $X_n$ $X_i \sim Bernoulli(p)$ $i$ $n$ $p$ $p(1-p)$

$X_i$ $X=\sum_{i=1}^{n}X_i$ $X$ $\mathbb{E}(X+Y)=\mathbb{E}(X)+\mathbb{E}(Y)$ $\mathbb{E}(X_1+X_2+\ldots+X_n)=\mathbb{E}(X_1)+\mathbb{E}(X_2)+\ldots+\mathbb{E}(X_n)$ $n$ $p$ $\mathbb{E}(X)=np$ $np$

V a r (X_{1} + X_{2} + \dots + X_{n}) = V a r (X_{1}) + V a r (X_{2}) + \dots + V a r (X_{n})

$Var(X_1+X_2+\ldots+X_n)=Var(X_1)+Var(X_2)+\ldots+Var(X_n)$

V a r (X) = n p (1 - p)

$Var(X)=np(1-p)$

X

$X$

n

$n$

p

$p$

X

$X$

X \sim B i n o m i a l (n, p)

$X \sim Binomial(n,p)$

n p

$np$

n p (1 - p)

$np(1-p)$

$p$ $\hat{p}=X/n$ $\hat{p}$ $X$ $k$ $\mathbb{E}(kX)=k\mathbb{E}(X)$ $k$ $Var(kX)=k^2 Var(X)$ $k^2$ $cm^2$

$\frac{1}{n}$ $\mathbb{E}(\hat{p})=\frac{1}{n}\mathbb{E}(X)=\frac{np}{n}=p$ $\hat{p}$ $Var(\hat{p})=\frac{1}{n^2}Var(X)=\frac{np(1-p)}{n^2}=\frac{p(1-p)}{n}$ $\sqrt{\frac{p(1-p)}{n}}$

$n$ $n$ $p$ $p$ es más problemático? Un gráfico es instructivo.

gráfica de sqrt (p (1-p))

$p=0.5$

\sqrt{p (1 - p)} = \sqrt{p - p^{2}} = \sqrt{\frac{1}{4} - (p^{2} - p + \frac{1}{4})} = \sqrt{\frac{1}{4} - (p - \frac{1}{2})^{2}}

$\sqrt{p(1-p)}=\sqrt{p-p^2}=\sqrt{\frac{1}{4}-(p^2-p+\frac{1}{4})}=\sqrt{\frac{1}{4}-(p-\frac{1}{2})^2}$

$p-\frac{1}{2}=0$ $p=\frac{1}{2}$

$\sqrt{\frac{0.25}{n}}=\frac{0.5}{\sqrt{n}} < 0.01$ $\sqrt{n} > 50$ $n > 2500$

$p$ $\frac{\sum{X_i}}{n}$

$p=0.5$ $p=0.7$ $p=0.3$ $\sqrt{p(1-p)}$

Gráfico de tamaños de muestra requeridos para diferentes errores estándar deseados

Lepisma
fuente

La escala log10 en el eje y podría ayudar aquí.

EngrStudent - Restablece a Monica el

7

La regla de "al menos 30" se aborda en otra publicación en Cross Validated. Es una regla de oro, en el mejor de los casos.

Cuando piensa en una muestra que se supone que representa a millones de personas, tendrá que tener una muestra mucho más grande que solo 30. ¡Intuitivamente, 30 personas ni siquiera pueden incluir a una persona de cada estado! Luego, piense que desea representar a republicanos, demócratas e independientes (al menos), y para cada uno de ellos querrá representar un par de categorías de edad diferentes, y para cada uno de ellos un par de categorías de ingresos diferentes.

Con solo 30 personas llamadas, te perderás una gran cantidad de datos demográficos que necesitas probar.

EDIT2: [He eliminado el párrafo al que objetaron abaumann y StasK. Todavía no estoy 100% persuadido, pero especialmente el argumento de StasK con el que no puedo estar en desacuerdo.] Si las 30 personas son realmente seleccionadas al azar de entre todos los votantes elegibles, la muestra sería válida en algún sentido, pero demasiado pequeña para le permite distinguir si la respuesta a su pregunta fue realmente verdadera o falsa (entre todos los votantes elegibles). StasK explica lo malo que sería en su tercer comentario, a continuación.

EDITAR: En respuesta al comentario de samplesize999, hay un método formal para determinar qué tan grande es lo suficientemente grande, llamado " análisis de potencia ", que también se describe aquí . El comentario de abaumann ilustra cómo existe una compensación entre su capacidad para distinguir diferencias y la cantidad de datos que necesita para realizar una cierta cantidad de mejora. Como él ilustra, hay una raíz cuadrada en el cálculo, lo que significa que el beneficio (en términos de mayor potencia) crece más y más lentamente, o el costo (en términos de cuántas muestras más necesita) aumenta cada vez más rápidamente, por lo que desea suficientes muestras, pero no más.

Wayne
fuente

2

"El objetivo de una muestra, toda su validez, es que refleja la población, no que sea aleatoria". ¡Eso es evidentemente incorrecto! La validez (en el sentido de generalización) se deriva exactamente del carácter aleatorio del procedimiento de muestreo. El caso es más bien que, dado que está interesado en márgenes muy pequeños, necesita una estimación precisa, que requiere un gran tamaño de muestra.

abaumann

3

@abaumann: Hasta donde entiendo, no hay magia en la aleatorización: es la forma más objetiva que tenemos para crear muestras que reflejen a la población. Es por eso que podemos usar la aleatorización dentro de los estratos, o usar la estratificación y la ponderación para intentar compensar la aleatorización no tan grande.

Wayne

2

samplesize: Esto tiene poco o nada que ver con ser un "experto". Por ejemplo, los candidatos presidenciales de los Estados Unidos realizan "encuestas de seguimiento" semanales y diarias durante sus campañas y estas solo encuestan a entre 200 y 300 personas. Estos tamaños de muestra proporcionan un equilibrio adecuado de costo e información. En otro extremo, ciertos estudios relacionados con la salud como NHANES inscriben a decenas o cientos de miles de personas porque es necesario para producir información procesable de tan alto valor que los enormes costos de estos estudios valgan la pena. En ambos casos, los expertos determinan los tamaños de muestra.

whuber

2

Técnicamente, la generalización será válida si la muestra es representativa de la población. La idea es que tener una muestra aleatoria garantiza que la muestra será representativa, pero que esto es más difícil (no necesariamente imposible) de lograr si la muestra no es aleatoria. FWIW, ninguna encuesta utiliza muestreo aleatorio simple.

gung - Restablece a Monica

1

@sashkello, hay un término medio: uno podría usar una muestra aleatoria estratificada (esencialmente su opción # 1), o intentar volver a pesar / comparar la muestra después. Al igual que Gung, creo que la mayoría de las grandes encuestas hacen algo más complejo que una simple muestra aleatoria

Matt Krause,

0

Ya se han publicado muchas respuestas excelentes. Permítanme sugerir un marco diferente que produce la misma respuesta, pero podría impulsar aún más la intuición.

$p$ $p$

$p$ $p \sim Beta(\alpha=1, \beta=1)$ $p$

$p$ $p$ $\delta_y$ $\delta_n$ $p \sim Beta(\alpha=1+\delta_y, \beta=1+\delta_n)$

$n=\delta_y+\delta_n$ $n$ qbeta(0.025, n/2, n/2)

$n=1067$

> qbeta(0.025, 1067/2, 1067/2) [1] 0.470019

cual es nuestro resultado deseado

En resumen, 1,067 encuestados que se dividieron en partes iguales entre "sí" y "no" nos darían un 95% de confianza en que la verdadera proporción de los encuestados "sí" está entre 47% y 53%.

mnmn
fuente

¿Por qué las encuestas políticas tienen muestras tan grandes?

Respuestas: