¿Cuál es la diferencia entre una población y una muestra?

38

¿Cuál es la diferencia entre una población y una muestra? ¿Qué variables y estadísticas comunes se utilizan para cada una y cómo se relacionan entre ellas?

Baltimark
fuente

Respuestas:

36

La población es el conjunto de entidades en estudio. Por ejemplo, la altura media de los hombres. Esta es una población hipotética porque incluye a todos los hombres que han vivido, están vivos y vivirán en el futuro. Me gusta este ejemplo porque lleva a casa el punto de que nosotros, como analistas, elegimos la población que deseamos estudiar. Por lo general, es imposible encuestar / medir a toda la población porque no todos los miembros son observables (por ejemplo, hombres que existirán en el futuro). Si es posible enumerar a toda la población, a menudo es costoso hacerlo y tomaría mucho tiempo. En el ejemplo anterior tenemos una población "hombres" y un parámetro de interés, su altura.

En cambio, podríamos tomar un subconjunto de esta población llamado muestra y usar esta muestra para sacar inferencias sobre la población en estudio, dadas algunas condiciones. Por lo tanto, podríamos medir la altura media de los hombres en una muestra de la población a la que llamamos estadística y usarla para hacer inferencias sobre el parámetro de interés en la población. Es una inferencia porque habrá cierta incertidumbre e imprecisión al sacar conclusiones sobre la población basadas en una muestra. Esto debería ser obvio: tenemos menos miembros en nuestra muestra que nuestra población, por lo tanto, hemos perdido algo de información.

Hay muchas formas de seleccionar una muestra y el estudio de esto se llama teoría de muestreo. Un método de uso común se llama muestreo aleatorio simple (SRS). En SRS, cada miembro de la población tiene la misma probabilidad de ser incluido en la muestra, de ahí el término "aleatorio". Existen muchos otros métodos de muestreo, por ejemplo, muestreo estratificado, muestreo por conglomerados, etc., todos los cuales tienen sus ventajas y desventajas.

Es importante recordar que la muestra que extraemos de la población es solo una de una gran cantidad de muestras potenciales. Si diez investigadores estuvieran estudiando la misma población, sacando sus propias muestras, entonces podrían obtener diferentes respuestas. Volviendo a nuestro ejemplo anterior, cada uno de los diez investigadores puede llegar a una altura media diferente de los hombres, es decir, la estadística en cuestión (altura media) varía de una muestra a otra; tiene una distribución llamada distribución de muestreo. Podemos usar esta distribución para comprender la incertidumbre en nuestra estimación del parámetro de población.

Se sabe que la distribución muestral de la media muestral es una distribución normal con una desviación estándar igual a la desviación estándar de la muestra dividida por el tamaño de la muestra. Debido a que esto podría confundirse fácilmente con la desviación estándar de la muestra, es más común llamar a la desviación estándar de la distribución de muestreo el error estándar .

Graham Cookson
fuente
77
¿No es un poco inútil usar "todos los hombres como siempre" como población? Quiero decir, ni siquiera hay consenso sobre la antigüedad del homo sapiens , o si el homo neanderthalensis era una especie separada, y mucho menos si los machos de la herramienta de piedra que usan homo habilis cuentan como "hombres". Presumiblemente, los mismos problemas nos enfrentarán en el futuro también.
naught101
En el último párrafo, creo que hay un pequeño desaire, y debería leer ... "igual a la desviación estándar de la muestra dividida por la [raíz cuadrada] del tamaño de la muestra" en referencia al error estándar .
Antoni Parellada
13

La población es el conjunto completo de valores o individuos que le interesan. La muestra es un subconjunto de la población y es el conjunto de valores que realmente utiliza en su estimación.

Entonces, por ejemplo, si desea conocer la altura promedio de los residentes de China, esa es su población, es decir, la población de China. La cuestión es que este es un número bastante grande, y no podría obtener datos para todos los presentes. Entonces, usted toma una muestra, es decir, obtiene algunas observaciones, o la altura de algunas de las personas en China (un subconjunto de la población, la muestra) y hace su inferencia basándose en eso.

Vivi
fuente
Buena respuesta. Creo que debería profundizar en lo que quiere decir con "hacer su inferencia basándose en eso". Esa es la segunda parte de mi pregunta.
Baltimark
mmm ... Realmente no entendí lo que querías decir con qué variables y estadísticas comunes ... Oh, ¿quieres decir que usas la distribución z si tienes la varianza de la población y la distribución t si solo tienes la varianza de la muestra? y el tamaño de la muestra es pequeño? ¿Algo en ese sentido?
Vivi
Lo que estaba llegando era que la media y la desviación estándar son parámetros asociados con la población, pero se estiman por la media de la muestra ((1 / N) * \ sum (x_i)) y la desviación estándar de la muestra ((1 / ( N-1)) * \ sum (x_i - x ^ bar) ^ 2).
Baltimark
8

La población lo es todo en el grupo de estudio. Por ejemplo, si está estudiando el precio de las acciones de Apple, son los precios de las acciones históricas, actuales e incluso futuras. O, si tienes una fábrica de huevos, son todos los huevos hechos por la fábrica.

No siempre tiene que muestrear y hacer pruebas estadísticas. Si su población es su familia de vida inmediata, no necesita hacer una muestra, ya que la población es pequeña.

El muestreo es popular por una variedad de razones:

  • es más barato que un censo (muestreando a toda la población)
  • no tiene acceso a datos futuros, por lo que debe probar el pasado
  • tienes que destruir algunos elementos probándolos, y no quieres destruirlos a todos (por ejemplo, huevos)
Neil McGuigan
fuente
2

Cuando pensamos en el término "población", generalmente pensamos en las personas de nuestra ciudad, región, estado o país y sus características respectivas, como género, edad, estado civil, pertenencia étnica, religión, etc. En estadística, el término "población" adquiere un significado ligeramente diferente. La "población" en las estadísticas incluye a todos los miembros de un grupo definido en el que estamos estudiando o recopilando información para tomar decisiones basadas en datos.

Una parte de la población se llama muestra. Es una proporción de la población, una porción de ella, una parte de ella y todas sus características. Una muestra es un grupo científicamente elaborado que en realidad posee las mismas características que la población, si se extrae al azar (¡Esto puede ser difícil de creer para usted, pero es cierto!)

Las muestras extraídas al azar deben tener dos características:

* Cada persona tiene la misma oportunidad de ser seleccionado para su muestra; y,

* La selección de una persona es independiente de la selección de otra persona.

Lo bueno de las muestras aleatorias es que puede generalizar a la población que le interesa. Entonces, si toma muestras de 500 hogares en su comunidad, puede generalizar a los 50,000 hogares que viven allí. Si combina algunas de las características demográficas de las 500 con las 50,000, verá que son sorprendentemente similares.

roseleneramas
fuente
2
Esto es básicamente correcto, si se interpreta correctamente. Me preocupa que algunos lectores se confundan al pensar que las muestras aleatorias simples con reemplazo (que es el tipo de muestra aleatoria que usted describe; hay otros tipos) reproducen correctamente todas las características de la población. De hecho, rara vez lo hacen. El punto del muestreo aleatorio es que las diferencias (inevitables) entre las características de la muestra y las características de la población pueden atribuirse al proceso de selección aleatoria.
whuber
0

Una población incluye todos los elementos de un conjunto de datos. Una muestra consta de una o más observaciones de la población. BOA, A. (2012, 17)

usuario91513
fuente
2
Cuando todos los elementos de un "conjunto de datos" se consideran una población, ese conjunto de datos se denomina censo de la población. Muy pocos conjuntos de datos son censos.
whuber