¿Es “cada persona con camiseta azul” una muestra sistemática?

17

Estoy enseñando una clase de introducción de estadísticas y estaba revisando los tipos de muestreo, incluido el muestreo sistemático donde muestras cada kth individual u objeto.

Un estudiante preguntó si muestrear a cada persona con una característica particular lograría lo mismo.

Por ejemplo, ¿el muestreo de cada persona con una camiseta azul sería lo suficientemente aleatorio y proporcionaría una representación suficiente de toda la población? Al menos, si hace una pregunta que no sea "¿Qué color de camiseta prefiere usar?" Mi sentido es no, pero me preguntaba si alguien aquí tenía alguna idea sobre esto.

drury
fuente
12
No. Si vivieras en Glasgow, Escocia, entonces la mayoría de las personas que usan una "camiseta azul", probablemente serían partidarios de los Rangers . Te estarías perdiendo de seguidores celtas . En Glasgow, el equipo de fútbol sería un representante de la religión.
csgillespie
1
@csgillespie ¡Maravilloso ejemplo!
whuber
Además, es posible que tenga más niños que niñas porque en la cultura occidental el azul está asociado con el hombre
Roland Kofler
Las camisetas de colores son más caras que las blancas, y no todos los diseños funcionan para todos los colores. Por lo tanto, aunque parezca inocente, incluso entre los usuarios de camisetas, puede estar seleccionando personas más ricas, o consumidores más impulsivos, o personas que favorecen a un partido político en particular.
Douglas Zare
También existe una asociación entre la edad y el uso de camisetas, entre los antecedentes culturales y el uso de camisetas, etc.
Glen_b -Reinstala Monica

Respuestas:

22

La respuesta, en general, a su pregunta es "no". Obtener una muestra aleatoria de una población (especialmente de humanos) es notoriamente difícil. Al condicionar una característica particular, por definición no está obteniendo una muestra aleatoria. El sesgo que esto introduce es otro asunto completamente diferente.

Como un ejemplo un poco absurdo, no querrás probar de esta manera en, digamos, un juego de fútbol entre los Bears y los Packers, incluso si tu población fuera "fanáticos del fútbol". (Los fanáticos de los Bears pueden tener diferentes características que otros fanáticos del fútbol, ​​incluso cuando la cantidad que les interesa puede no parecer directamente relacionada con el fútbol).

Hay muchos ejemplos famosos de sesgos ocultos como resultado de la obtención de muestras de esta manera. Por ejemplo, en las recientes elecciones de EE. UU. En las que se realizaron encuestas telefónicas, se cree que las personas que poseen solo un teléfono celular y ningún teléfono fijo están (quizás dramáticamente) subrepresentadas en la muestra. Como estas personas también tienden a ser, en general, más jóvenes que las que tienen líneas fijas, se obtiene una muestra sesgada. Además, las personas más jóvenes tienen creencias políticas muy diferentes a las de las poblaciones mayores. Por lo tanto, este es un ejemplo simple de un caso en el que, incluso cuando la muestra no fue condicionada intencionalmente a una característica particular, todavía sucedió de esa manera. Y, aunque la encuesta no tuvo nada que ver con la característica de condicionamiento (es decir, si se usa o no un teléfono fijo), el efecto de la característica de condicionamiento en las conclusiones de la encuesta fue significativo, tanto estadística como prácticamente.

cardenal
fuente
6

Siempre que la distribución de la característica que está utilizando para seleccionar unidades en la muestra sea ortogonal a la distribución de la característica de la población que desea estimar, puede obtener una estimación imparcial de la cantidad de población condicionando la selección. La muestra no es estrictamente una muestra aleatoria . Pero las personas tienden a pasar por alto que las muestras aleatorias son buenas porque la variable aleatoria utilizada para seleccionar unidades en la muestra es ortogonal a la distribución de la característica de la población, no porque sea aleatoria.

Solo piense en dibujar al azar de un Bernoulli con P (invlogit (x_i)) donde x_i en [-inf, inf] es una característica de la unidad i tal que Cov (x, y)! = 0, e y es la característica de la población cuyo significa que quieres estimar. La muestra es "aleatoria" en el sentido de que está aleatorizando antes de seleccionarla en la muestra. Pero la muestra no produce una estimación imparcial de la media poblacional de y.

Lo que necesita es condicionar la selección a la muestra en una variable que sea tan buena como asignada aleatoriamente . Es decir, eso es ortogonal a la variable de la que depende la cantidad de interés. La aleatorización es buena porque asegura la ortogonalidad, no por la aleatorización en sí.

PAS
fuente
44
Esto es correcto, pero ¿cómo podría saber si fuera ortogonal a menos que tuviera una muestra verdaderamente aleatoria?
Peter Flom - Restablece a Monica