¿Qué sucede si toma una muestra aleatoria y puede ver que claramente no es representativa, como en una pregunta reciente ? Por ejemplo, ¿qué sucede si se supone que la distribución de la población es simétrica alrededor de 0 y la muestra que extrae al azar tiene observaciones positivas y negativas desequilibradas, y el desequilibrio es estadísticamente significativo, ¿dónde lo deja eso? ¿Qué declaraciones razonables puede hacer sobre la población en base a una muestra sesgada? ¿Cuál es un curso de acción razonable en tal situación? ¿Importa cuando en nuestra investigación notamos este desequilibrio?
sampling
experiment-design
inference
sample
Joel W.
fuente
fuente
Respuestas:
La respuesta dada por MLS (usar muestreo de importancia) es tan buena como las suposiciones que puede hacer sobre sus distribuciones. La principal fortaleza del paradigma de muestreo de población finita es que no es paramétrico, ya que no hace suposiciones sobre la distribución de los datos para hacer inferencias (válidas) en los parámetros de población finita.
Un enfoque para corregir los desequilibrios de la muestra se llama post-estratificación . Debe dividir la muestra en clases no superpuestas (post-estratos) y luego volver a ponderar estas clases de acuerdo con las cifras de población conocidas. Si se sabe que su población tiene una mediana de 0, puede volver a ponderar las observaciones positivas y negativas para que sus proporciones ponderadas se conviertan en 50-50: si tuvo un SRS desafortunado con 10 observaciones negativas y 20 observaciones positivas, le daría el los negativos el peso de 15/10 = 1.5 y los positivos, 15/20 = 0.75.
Existen formas más sutiles de la calibración de la muestra , en las que puede calibrar su muestra para satisfacer restricciones más generales, como tener una media de una variable continua que sea igual al valor específico. La restricción de simetría es bastante difícil de trabajar, aunque eso también podría ser factible. Puede ser que Jean Opsomer tenga algo sobre esto: ha estado haciendo un gran trabajo de estimación de kernel para datos de encuestas.
fuente
Soy el miembro más joven aquí, pero yo diría que desechar y empezar de nuevo es siempre la mejor respuesta, si usted sabe que su muestra es significativamente representativa, y si usted tiene una idea de cómo surgió la toma de muestras poco representativas en el primer lugar y cómo evitarlo si es posible la segunda vez.
¿De qué servirá probar una segunda vez si probablemente terminas en el mismo barco?
Si volver a recopilar datos no tiene sentido o es prohibitivamente costoso, debe trabajar con lo que tiene, tratando de compensar la falta de representación mediante estratificación, imputación, modelado más elegante o lo que sea. Debe tener en cuenta claramente que compensó de esta manera, por qué cree que es necesario y por qué cree que funcionó. Luego trabaje la incertidumbre que surgió de su compensación durante todo su análisis. (Hará que tus conclusiones sean menos seguras, ¿verdad?)
Si no puede hacer eso, debe abandonar el proyecto por completo.
fuente
fuente