¿Cómo hacer un conjunto de muestras representativo a partir de un conjunto de datos global grande?

10

¿Cuáles son las técnicas estadísticas para crear un conjunto de muestras, que es representativo de toda la población (con un nivel de confianza conocido)?

También,

  • ¿Cómo validar, si la muestra se ajusta al conjunto de datos general?
  • ¿Es posible, sin analizar todo el conjunto de datos (que podrían ser miles de millones de registros)?
Mohit Ranka
fuente

Respuestas:

8

Si no desea analizar todo el conjunto de datos, entonces probablemente no pueda usar el muestreo estratificado , por lo que le sugiero que tome una muestra aleatoria simple grande . Al tomar una muestra aleatoria , se asegura de que la muestra sea, en promedio, representativa de todo el conjunto de datos, y las medidas estadísticas de precisión estándar, como los errores estándar y los intervalos de confianza, le indicarán qué tan lejos de los valores de la población es probable que sus estimaciones de muestra para ser, así que no hay necesidad real de validar que una muestra sea representativa de la población a menos que tenga algunas preocupaciones que realmente se muestrearon al azar.

¿Qué tan grande es una muestra aleatoria simple? Bueno, cuanto más grande sea la muestra, más precisas serán sus estimaciones. Como ya tiene los datos, los cálculos convencionales del tamaño de la muestra no son realmente aplicables; también puede usar la mayor parte de su conjunto de datos que sea práctico para la computación. A menos que esté planeando hacer algunos análisis complejos que harán que el tiempo de cálculo sea un problema, un enfoque simple sería hacer que la muestra aleatoria simple sea tan grande como pueda analizarse en su PC sin generar paginación231

Entonces se trata de una simple aritmética para calcular cuántas observaciones puede muestrear dadas cuántas variables tiene para cada observación y cuántos bytes ocupa cada variable.

una parada
fuente
Gracias por tu respuesta. Supongo que estoy buscando muestras estratificadas. (Estaba buscando algoritmos, que no son computacionalmente muy caros, ya que no analizar a toda la población, para hacer un conjunto representativo, ni siquiera tiene sentido. :-))
Mohit Ranka
2

En su segunda pregunta primero, podría preguntar, "¿cómo se ingresaron los datos?" Si cree que los datos se ingresaron de una manera relativamente arbitraria (es decir, independiente de cualquier característica observable o no observable de sus observaciones que pueda influir en su análisis final utilizando los datos), entonces puede considerar los primeros 5 millones, digamos, o sin embargo con los que se sienta cómodo trabajando, como representante de la muestra completa y seleccione al azar de este grupo para crear una muestra con la que pueda trabajar.

Para comparar dos distribuciones empíricas, puede usar qq-plot y la prueba no paramétrica Kolmogorov – Smirnov de dos muestras para las diferencias en las distribuciones (ver, por ejemplo, aquí: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ). En este caso, probaría la distribución de cada variable en su muestra contra la distribución de esa variable en su conjunto de datos "completo" (nuevamente, podría ser solo 5 millones de observaciones de su muestra completa). La prueba KS puede sufrir de baja potencia (es decir, es difícil rechazar la hipótesis nula de que no hay diferencia entre los grupos), pero, con tantas observaciones, debería estar bien.

Charlie
fuente