Estoy enseñando una clase de introducción de estadísticas y estaba revisando los tipos de muestreo, incluido el muestreo sistemático donde muestras cada kth individual u objeto.
Un estudiante preguntó si muestrear a cada persona con una característica particular lograría lo mismo.
Por ejemplo, ¿el muestreo de cada persona con una camiseta azul sería lo suficientemente aleatorio y proporcionaría una representación suficiente de toda la población? Al menos, si hace una pregunta que no sea "¿Qué color de camiseta prefiere usar?" Mi sentido es no, pero me preguntaba si alguien aquí tenía alguna idea sobre esto.
Respuestas:
La respuesta, en general, a su pregunta es "no". Obtener una muestra aleatoria de una población (especialmente de humanos) es notoriamente difícil. Al condicionar una característica particular, por definición no está obteniendo una muestra aleatoria. El sesgo que esto introduce es otro asunto completamente diferente.
Como un ejemplo un poco absurdo, no querrás probar de esta manera en, digamos, un juego de fútbol entre los Bears y los Packers, incluso si tu población fuera "fanáticos del fútbol". (Los fanáticos de los Bears pueden tener diferentes características que otros fanáticos del fútbol, incluso cuando la cantidad que les interesa puede no parecer directamente relacionada con el fútbol).
Hay muchos ejemplos famosos de sesgos ocultos como resultado de la obtención de muestras de esta manera. Por ejemplo, en las recientes elecciones de EE. UU. En las que se realizaron encuestas telefónicas, se cree que las personas que poseen solo un teléfono celular y ningún teléfono fijo están (quizás dramáticamente) subrepresentadas en la muestra. Como estas personas también tienden a ser, en general, más jóvenes que las que tienen líneas fijas, se obtiene una muestra sesgada. Además, las personas más jóvenes tienen creencias políticas muy diferentes a las de las poblaciones mayores. Por lo tanto, este es un ejemplo simple de un caso en el que, incluso cuando la muestra no fue condicionada intencionalmente a una característica particular, todavía sucedió de esa manera. Y, aunque la encuesta no tuvo nada que ver con la característica de condicionamiento (es decir, si se usa o no un teléfono fijo), el efecto de la característica de condicionamiento en las conclusiones de la encuesta fue significativo, tanto estadística como prácticamente.
fuente
Siempre que la distribución de la característica que está utilizando para seleccionar unidades en la muestra sea ortogonal a la distribución de la característica de la población que desea estimar, puede obtener una estimación imparcial de la cantidad de población condicionando la selección. La muestra no es estrictamente una muestra aleatoria . Pero las personas tienden a pasar por alto que las muestras aleatorias son buenas porque la variable aleatoria utilizada para seleccionar unidades en la muestra es ortogonal a la distribución de la característica de la población, no porque sea aleatoria.
Solo piense en dibujar al azar de un Bernoulli con P (invlogit (x_i)) donde x_i en [-inf, inf] es una característica de la unidad i tal que Cov (x, y)! = 0, e y es la característica de la población cuyo significa que quieres estimar. La muestra es "aleatoria" en el sentido de que está aleatorizando antes de seleccionarla en la muestra. Pero la muestra no produce una estimación imparcial de la media poblacional de y.
Lo que necesita es condicionar la selección a la muestra en una variable que sea tan buena como asignada aleatoriamente . Es decir, eso es ortogonal a la variable de la que depende la cantidad de interés. La aleatorización es buena porque asegura la ortogonalidad, no por la aleatorización en sí.
fuente