Las encuestas por ahí (digamos, Gallup) muestran un número absurdamente bajo de personas en comparación con el tamaño de la población (por ejemplo, tal vez mil personas de cientos de millones).
Ahora, para mí, tomar muestras de una población como un medio para estimar las estadísticas de la población tiene sentido cuando tienes una razón sólida para creer que las muestras son representativas de la población (o, de manera similar, de otras muestras ) .
Por ejemplo, el muestreo obviamente tiene sentido para los estudios médicos, porque sabemos a priori que todos los humanos tienen genomas bastante similares y que este factor hace que sus cuerpos se comporten de manera similar.
Tenga en cuenta que esto no es un tipo de acoplamiento suelto: el genoma es un factor determinante muy fuerte .
Sin embargo, no entiendo qué justifica el uso de tamaños de muestra bajos para cosas como encuestas políticas.
Podría comprar que tal vez el 80-90% de las personas en cualquier vecindario votan de manera similar por el presidente (debido a antecedentes socioeconómicos / educativos similares), pero esto apenas parece justificar el número absurdamente bajo de muestras. Literalmente no hay una razón convincente (al menos para mí) por la cual 1000 votantes al azar deberían comportarse como los 200 millones de otros votantes.
Para mí, necesitaría al menos como (digamos) 100 × esa cantidad. ¿Por qué? Se me ocurren muchas razones, por ejemplo:
Hay ~ 22,000 recintos solo en California . Las personas crecen de manera tan diferente en sus antecedentes económicos y educativos que una encuesta de tamaño 1000 parece ridículamente pequeña. ¿Cómo puede resumir recintos completos con <1 persona en promedio?
Las personas generalmente no pueden cambiar las respuestas de sus cuerpos a la medicina, pero pueden cambiar sus opiniones sobre la política con solo pensarlo. Desde mi punto de vista, no hay ningún factor de fuerza similar al ADN en la medicina cuando se trata de política. En el mejor de los casos , me imagino que debería haber pequeños bolsillos de correlación.
Sin embargo, de alguna manera, encuestas como esta parecen ... ¿funcionar de todos modos? ¿O al menos la gente parece pensar que sí?
¿Pero por qué deberían hacerlo? ¿Quizás no entiendo fundamentalmente el muestreo ? Alguien puede explicar?
Simplemente no puedo tomar en serio ninguna de las encuestas que veo, pero siento que estoy más o menos solo en esto ...
fuente
Respuestas:
Parece que estás imaginando un modelo de muestreo muy simple.
El modelo más simple para el muestreo se llama acertadamente muestreo aleatorio simple . Usted selecciona un subconjunto de la población (por ejemplo, marcando números de teléfono al azar) y pregunta a quien responde cómo está votando. Si 487 dicen Clinton, 463 dicen Trump, y el resto le da una respuesta descabellada, entonces la empresa encuestadora informaría que el 49% de los votantes prefiere Clinton, mientras que el 46% prefiere Trump. Sin embargo, las empresas encuestadoras hacen mucho más que esto. Una muestra aleatoria simple otorga el mismo peso a cada punto de datos. Sin embargo, suponga que su muestra contiene, por casualidad, 600 hombres y 400 mujeres, lo que claramente no es representativo de la población en general. Si los hombres como grupo se inclinan hacia un lado, mientras que las mujeres se inclinan hacia el otro, esto sesgará su resultado. Sin embargo, dado que tenemos estadísticas demográficas bastante buenas, puede pesar *las respuestas contando las respuestas de las mujeres un poco más y las de los hombres un poco menos, de modo que la respuesta ponderada represente mejor a la población. Las organizaciones de encuestas tienen modelos de pesaje más complicados que pueden hacer que una muestra no representativa se parezca a una más representativa.
La idea de ponderar las respuestas de la muestra tiene una base estadística bastante firme, pero hay cierta flexibilidad en la elección de los factores que contribuyen a las ponderaciones. La mayoría de los encuestadores vuelven a pesar basándose en factores demográficos como el género, la edad y la raza. Dado esto, usted podría pensar que la identificación del partido (demócrata, republicana, etc.) también debería incluirse, pero resulta que la mayoría de las empresas encuestadoras sí no la usan en sus pesas: la (auto) identificación del partido está enredada con la elección del votante de una manera que lo hace menos útil.
Muchos equipos de votación también informan sus resultados entre los "votantes probables". En estos, los encuestados son seleccionados o ponderados en función de la probabilidad de que realmente vayan a las urnas. Sin duda, este modelo también se basa en datos, pero la elección precisa de los factores permite cierta flexibilidad. Por ejemplo, incluir interacciones entre el candidato y la raza (o género) del votante ni siquiera fue sensato hasta 2008 o 2016, pero sospecho que ahora tienen cierto poder predictivo.
En teoría, podría incluir todo tipo de cosas como factores de ponderación: preferencia musical, color de ojos, etc. Sin embargo, los factores demográficos son opciones populares para los factores de ponderación porque:
Sin embargo, los encuestadores también ven las mismas noticias que todos los demás y pueden ajustar las variables de ponderación si es necesario.
También hay algunos "factores falsos" que a veces se invocan para explicar los resultados de la encuesta. Por ejemplo, los encuestados a veces son reacios a dar respuestas "socialmente indeseables". El efecto Bradley plantea que los votantes blancos a veces minimizan su apoyo a los candidatos blancos que se enfrentan a una minoría para evitar parecer racistas. Lleva el nombre de Tom Bradley, un candidato a gobernador afroamericano que perdió por poco las elecciones a pesar de liderar cómodamente en las encuestas.
Finalmente, tienes toda la razón de que el solo hecho de pedirle la opinión a alguien puede cambiarlo. Las empresas encuestadoras intentan escribir sus preguntas de manera neutral. Para evitar problemas con el orden de las posibles respuestas, los nombres de los candidatos pueden aparecer en orden aleatorio. Varias versiones de una pregunta también a veces se prueban unas contra otras. Este efecto también puede explotarse para fines nefastos en una encuesta de empuje , donde el entrevistador no está realmente interesado en recopilar respuestas sino en influir en ellas. Por ejemplo, una encuesta de inserción podría preguntar "¿Votaría por [Candidato A] incluso si se informara que fue un abusador de menores?".
* También puede establecer objetivos explícitos para su muestra, como 500 hombres y 500 mujeres. Esto se llama muestreo estratificado: la población se estratifica en diferentes grupos, y cada grupo se muestrea al azar. En la práctica, esto no se hace con mucha frecuencia para las encuestas, porque necesitaría estratificarse en muchos grupos exhaustivos (por ejemplo, hombres con educación universitaria entre 18 y 24 años en el área urbana de Texas).
fuente
Hay un teorema matemático llamado "ley de los grandes números". Imagine que desea determinar la probabilidad de que una moneda salga cara. La "población" de monedas es infinita, mucho más grande que las más de 300,000,000 personas en los Estados Unidos. Pero de acuerdo con la Ley de Grandes Números, mientras más monedas hagas, más precisa será tu estimación.
La encuesta ideal: en la encuesta ideal, los encuestadores elegían al azar nombres del Censo de los EE. UU., Averiguarían dónde viven esas personas, luego irían y llamarían a su puerta. Si la persona dice que está planeando votar, el encuestador pregunta por quién está votando y registra su respuesta. Una encuesta como esta está garantizada matemáticamente para funcionar y la cantidad de error en su medición para cualquier nivel de confianza puede calcularse fácilmente .
Esto es lo que significa el error: supongamos que, en función de su encuesta, tiene una probabilidad del 52 por ciento de que Candidate Awesome McPerfect gane, con un error del 3% con un 98% de confianza. Eso significa que puede tener un 98% de confianza en que la verdadera porción de votantes que favorecen al candidato Awesome McPerfect está entre 49% y 55%.
Una nota sobre error y confianza Para un tamaño de muestra dado, cuanto más seguro esté, mayor será su error. Piénselo: está 100% seguro de que la proporción verdadera que admite canditate Awesome está entre 0% y 100% (la mayoría de los errores posibles), y está 0% seguro de que la proporción verdadera que admite canditate Awesome es exactamente 52.0932840985028390984308% (error cero). Más confianza significa más error, menos confianza significa menos error. Sin embargo, ¡la relación entre confianza y error NO es lineal! (Ver: https://en.wikipedia.org/wiki/Confidence_interval )
Encuestas en el mundo real: Debido a que es caro para los encuestadores de helicópteros en todas partes del país llamar a las puertas de personas al azar (aunque me encantaría ver que eso suceda; si eres un billón y ves esto, por favor considere financiar esto), las encuestas en el mundo real son más complejas. Veamos una de las estrategias más comunes: llamar a votantes al azar y preguntarles por quién votarían. Es una buena estrategia, pero tiene algunas fallas bien conocidas:
Debido a que diferentes grupos demográficos votan de diferentes maneras, los encuestadores deben hacer todo lo posible para controlar las diferencias en sus datos sin procesar (según quién decidió contestar el teléfono) y los resultados de las elecciones reales. Por ejemplo, si el 10% de las personas que levantaron el teléfono eran hispanos, pero el 30% de los votantes en las últimas elecciones eran hispanos, entonces darán tres veces más peso a los votantes hispanos en su encuesta. Si el 50% de las personas que contestaron el teléfono eran mayores de 60 años, pero solo el 30% de las personas que votaron en las últimas elecciones tenían más de 60 años, darán menos peso a los votantes mayores que respondieron. No es perfecto, pero puede conducir a algunas proezas impresionantes de predicción (Nate Silver predijo correctamente los resultados en cada uno de los 50 estados en las elecciones de 2012 usando estadísticas,
Una advertencia para los sabios: los encuestadores hacen las mejores predicciones que pueden sobre la base de cómo funcionaron las cosas en el pasado. En términos generales , las cosas funcionan igual que en el pasado, o al menos el cambio es lo suficientemente lento como para que el pasado reciente (en el que se centran más) se parezca al presente. Sin embargo, ocasionalmente hay cambios rápidos en el electorado y las cosas salen mal. Tal vez los votantes de Trump son un poco menos propensos que su votante promedio a contestar el teléfono, y la ponderación por demografía no tiene en cuenta eso. O tal vez los jóvenes (que apoyan abrumadoramente a Hillary) son incluso máses poco probable que conteste el teléfono de lo que predicen los modelos, y los que sí responden son más propensos a ser republicanos. O tal vez lo contrario de ambos es cierto, no lo sabemos. cosas como esas son variables ocultas que no aparecen en la demografía comúnmente recopilada.
Nos gustaría saber si enviamos encuestadores a tocar puertas al azar (ejem, multimillonario imaginaria leyendo esto), desde entonces no tendríamos a las cosas en peso basados en datos demográficos, pero hasta entonces, los dedos cruzados.
fuente
En primer lugar, esto es aparte de sus puntos principales, pero vale la pena mencionarlo. En el ensayo médico, es posible que 1000 personas prueben un medicamento que se puede administrar a las 10000 personas que están enfermas anualmente. Puede mirar eso y pensar "Eso se está probando en el 10% de la población", de hecho, la población no es de 10000 personas, todos son pacientes futuros, por lo que el tamaño de la población es infinito. 1000 personas no son grandes en comparación con los usuarios potenciales infinitos de la droga, pero este tipo de estudios funcionan. No es importante si evalúa al 10%, 1% o 0.1% de la población; Lo importante es el tamaño absoluto de la muestra, no su tamaño en comparación con la población.
Luego, su punto principal es que hay tantas variables de confusión que pueden influir en la votación de las personas. Estás tratando a los 22000 distritos de California como 22000 variables, pero en realidad son solo un puñado de variables (ingresos y educación como mencionaste). No necesita una muestra representativa de cada distrito, solo necesita suficientes muestras para cubrir la variación debido a ingresos, educación, etc.
Si usted tienek variables de confusión (edad, género, educación, etc.) y todos tienen efectos similares, entonces la varianza del voto aumenta aproximadamente k veces. Si muestrasnorte personas, entonces la varianza del promedio de la muestra disminuye en un factor de norte . Por lo tanto, si la variación de cada variable de confusión esσ2 entonces su promedio de muestra de norte personas con k las variables de confusión serán k σ2norte .
Probablemente pueda pensar en 10 o más variables de confusión, pero el tamaño de la muestra es 1000k es mucho más pequeño que norte . Por lo tanto, la varianza del promedio de la muestra es bastante pequeña.
Editar:
La fórmula anterior suponía que cada variable de confusión es igualmente importante. Si queremos considerar cientos de cosas que pueden agregar variación a los resultados, entonces esta suposición no es válida (por ejemplo, tal vez los usuarios de Twitter apoyen a un candidato más, pero sabemos que el uso de Twitter no es tan importante como el género).
Podríamos enumerar todas las variables de confusión en orden de importancia (por ejemplo, género, edad, ingresos, ..., uso de Twitter, ...). Supongamos que cada variable es solo un 90% tan importante como la anterior. Ahora si el género agrega una varianza igual aσ2 entonces la edad agrega una varianza igual a 0.9 σ2 y los ingresos se suman 0.92σ2 . Si incluimos un número infinito de variables de confusión, entonces la variabilidad total es∑∞n = 0σ20.9norte= 10 σ2 .
Con este tipo de consideración para las variables menores, hemos terminado con una variación con 10 veces la variabilidad del género solo. Entonces connorte muestras la variación en el promedio de la muestra es 10 σ2norte . Por supuesto0.9 fue elegido arbitrariamente, pero esto transmite un punto sobre cómo estas infinitas variables menores deberían sumar algo pequeño
fuente