¿Cómo se aproxima la distribución muestral de medias muestrales a la media poblacional?

16

Estoy tratando de aprender estadísticas porque encuentro que es tan frecuente que me prohíbe aprender algunas cosas si no las entiendo correctamente. Tengo problemas para entender esta noción de una distribución de muestreo de las medias muestrales. No puedo entender la forma en que algunos libros y sitios lo han explicado. Creo que tengo un entendimiento, pero no estoy seguro si es correcto. A continuación está mi intento de entenderlo.

Cuando hablamos de algún fenómeno que tiene una distribución normal, generalmente (no siempre) concierne a la población.

Queremos usar estadísticas inferenciales para predecir algunas cosas sobre alguna población, pero no tenemos todos los datos. Usamos muestreo aleatorio y cada muestra de tamaño n tiene la misma probabilidad de ser seleccionada.

Entonces tomamos muchas muestras, digamos 100 y luego la distribución de las medias de esas muestras será aproximadamente normal de acuerdo con el teorema del límite central. La media de las medias muestrales se aproximará a la media poblacional.

Ahora, lo que no entiendo es que muchas veces ves "Una muestra de 100 personas ..." ¿No necesitaríamos 10s o 100s de muestras de 100 personas para aproximarnos a la población de la media? ¿O es el caso de que podemos tomar una sola muestra que sea lo suficientemente grande, digamos 1000 y luego decir que la media se aproximará a la media de la población? ¿O tomamos una muestra de 1000 personas y luego tomamos 100 muestras aleatorias de 100 personas en cada muestra de las 1000 personas originales que tomamos y luego usamos eso como nuestra aproximación?

¿Tomar una muestra lo suficientemente grande como para aproximar la media (casi) siempre funciona? ¿Es necesario que la población sea normal para que esto funcione?

Mergesort
fuente

Respuestas:

9

Creo que podría estar confundiendo la distribución de muestreo esperada de una media (que calcularíamos en base a una sola muestra) con el proceso (generalmente hipotético) de simular lo que sucedería si muestreamos repetidamente de la misma población varias veces.

Para cualquier tamaño de muestra dado (incluso n = 2), diríamos que la media de la muestra (de las dos personas) estima la media de la población. Pero la precisión de la estimación, es decir, cuán bueno es el trabajo que hemos hecho de estimar la media de la población en función de nuestros datos de muestra, como se refleja en el error estándar de la media, será peor que si tuviéramos un 20 o 200 personas en nuestra muestra. Esto es relativamente intuitivo (las muestras más grandes dan una mejor precisión de estimación).

Luego usaríamos el error estándar para calcular un intervalo de confianza, que (en este caso) se basa en la distribución Normal (probablemente usaríamos la distribución t en muestras pequeñas, ya que la desviación estándar de la población a menudo se subestima en un muestra pequeña, que conduce a errores estándar demasiado optimistas).

En respuesta a su última pregunta, no, no siempre necesitamos una población normalmente distribuida para aplicar estos métodos de estimación; el teorema del límite central indica que la distribución muestral de una media (estimada, nuevamente, a partir de una sola muestra) tenderá a seguir una distribución normal incluso cuando la población subyacente tiene una distribución no normal. Esto suele ser apropiado para muestras "más grandes".

Dicho esto, cuando tiene una población no normal de la que está tomando muestras, la media podría no ser una estadística de resumen apropiada, incluso si la distribución de muestreo para esa media pudiera considerarse confiable.

James Stanley
fuente
entonces, ¿estoy realmente demasiado obsesionado con entender esta base teórica de cómo funcionan algunas de estas cosas? ¿Es lo realmente interesante aquí el intervalo de confianza? En otras palabras, si quisiera publicar un estudio de, digamos, la cantidad de horas que duerme un adulto promedio en los EE. UU., Y tomo una muestra de 5,000 y mi intervalo de confianza es del 99.9%, el promedio está entre 6.46 y 6.54, entonces puedo ir adelante y publique mi estudio diciendo "con confianza" que el promedio de adultos en los Estados Unidos duerme 6.5 horas?
mergesort
2
Donde dijiste: " decir" con confianza "que el promedio de adultos en los Estados Unidos duerme 6.5 horas ". Bueno, no, puedes estar bastante seguro de que en realidad no son 6.5 horas en promedio. Solo puede estar seguro de que está cerca de las 6.5 horas, o puede estar seguro de que son '6.5 horas a los 5 minutos más cercanos', o algo así. Solo los rangos tendrán cierto nivel de confianza asociado a ellos.
Glen_b -Reinstale a Mónica el
1
@Glen_b llega al meollo del asunto: nunca podemos decir que estamos seguros de haber estimado un valor de población exactamente correcto, sino que tenemos una idea sobre la precisión de nuestro proceso de estimación.
James Stanley
@angrymonkey Creo que todavía es útil obtener los conceptos subyacentes al enfoque (simulado) de muestreo repetido. Además, para estimar significa que uno no necesita tamaños de muestra "enormes" - la fórmula para el error estándar de una media es sample std deviation / square root(n)- la raíz cuadrada de n parte nos dice que obtenemos rendimientos decrecientes en la precisión de la estimación para incrementos fijos como tamaño de muestra se hace más grande (por ejemplo, pasar de 10 a 20 personas en una muestra mejora la precisión de la estimación más que pasar de 210 a 220 personas).
James Stanley
genial ... muchas gracias por la ayuda. Entonces, ¿un IC simplemente nos permite decir que estoy 95% seguro de que la persona promedio duerme entre 6.45 y 6.56 horas por noche? entonces, ¿por qué algunos artículos hacen estas afirmaciones definitivas como la persona promedio ve 4.5 horas de televisión al día? seguramente el intervalo de confianza es algo así como 95% 4.43 y 4.56
mergesort
10
  • σ2/nnn
  • Si toma varias muestras independientes, cada media de la muestra será normal, y la media de las medias será normal y tenderá a la media verdadera.
  • Si sus muestras son realmente de la misma distribución (por ejemplo, 100 muestras de 10 cada una), hará las mismas inferencias que si tomara una muestra grande de 1000. (Pero en el mundo real, las muestras distintas probablemente difieren en las formas en que uno no se puede ignorar; ver "diseño de bloques al azar".)
  • norte , más cerca estará de la normalidad.
  • Si toma 100 muestras de 10 cada una, las medias muestrales tendrán una distribución que tendrá una apariencia más normal que los datos originales, pero menos normal que la distribución de la media general.
  • Tomar una gran muestra también lo acercará a la normalidad.
  • Si desea estimar la media de la población, no hay diferencia (en teoría) si toma una muestra grande de 1000 o 100 muestras de 10.
  • Pero en la práctica, las personas con teoría de muestreo pueden dividir la muestra por razones de agrupamiento, estratificación y otros problemas. Luego toman en cuenta el esquema de muestreo al hacer su estimación. Pero eso es realmente importante para otra pregunta.
Placidia
fuente
en la mayoría de los libros de texto, lo llevan a través de esta noción de la distribución muestral de las medias muestrales. En esencia, esto le dice, "oye, si tomas muchas muestras, tiende a ser normal y se aproximará a la media de la población". Luego te dicen que si tomas muestras lo suficientemente grandes, solo puedes tomar una. ¿Se supone que la distribución muestral de la muestra significa hacerle creer que puede tomar una muestra grande? En otras palabras, ¿cuál es el propósito de entenderlo? ¿Es solo para ayudarlo a comprender la intuición detrás de tomar una muestra grande? haciendo caso omiso de la idea de probar theo
mergesort
Creo que @ "James Stanley" responde eso muy bien. En cualquier caso de la vida real, toma una muestra, calcula la media muestral y esa es su estimación.
Placidia
1

La distribución muestral de la media es la distribución de TODAS las muestras de un tamaño dado. La media de la muestra dist es igual a la media de la población. Cuando hablamos de muestreo dist de media para muestras de un tamaño dado, no estamos hablando de una muestra o incluso de miles de muestras sino de todas las muestras.

Allen Moser
fuente
0

El dist de muestreo de la media no tiene nada que ver con los intervalos de confianza. Ese es otro concepto. Para la muestra dist, la población puede ser normal o no normal a) Si pop es normal, entonces la muestra dist de la media será normal para cualquier tamaño de muestra. b) Si el pop no es normal, entonces 1) la distancia de muestreo de la media NO PUEDE considerarse normal, a menos que el tamaño de la muestra sea 30 o más. Luego, el Teorema del límite central nos dice que el dist de muestreo puede considerarse normal.

Hablas de predecir. Predecir tampoco tiene nada que ver con esto. Está insertando demasiado en samp dist. La muestra dist es simplemente Todas las muestras y luego se toma la media. Y la media de todas estas muestras, mu sub x bar, es igual a la media de la población, mu y estándar dev od muestra dist, sigma sub x bar = sigma dividido por la raíz cuadrada de n. (No hablaremos sobre el factor de corrección de pop finito. Tome su estadística como valor nominal. No lea demasiado en un concepto. Puño entienda el concepto básico.

PS La muestra dist de mean no tiene nada que hacer abput pr

Allen Moser
fuente
Me pregunto si esta respuesta podría combinarse con su primera respuesta, en lugar de ingresarse como otra respuesta. Por lo general, preferimos que tenga 1 respuesta por hilo. (Sin embargo, hay excepciones). Puede agregar material a una respuesta existente, o hacer cambios, haciendo clic en la "edición" gris en su parte inferior izquierda.
gung - Restablece a Monica
0

He estado pensando en problemas de big data y he visto algunas de estas publicaciones esta mañana. No creo que este sea un problema trivial en absoluto, con respecto a la diferencia entre analizar los 1000 datos como un conjunto en comparación con el análisis de 10 conjuntos de 100. En teoría , si la hipótesis nula es cierta de que los datos son id, no tiene sentido diferencia. Sin embargo, la agrupación y los patrones en los datos no se abordan en absoluto si uno simplemente toma la media de los 1000 datos y cita la media estimada y el error estándar asociado.

La conclusión a la que he llegado, mirando algunas páginas en stackexchange y wikipedia, es que los grandes datos permiten ver lo obvio . Si hay algunas características interesantes en la población en su conjunto, un conjunto de datos grandes los mostraría claros como el día. Entonces, si tuviera un conjunto de datos muy grande, que pudiera ver visualmente, no intervendría y tomaría breves medidas de resumen sin buscar primero características muy obvias. Desde mis primeras lecciones en inferencia estadística, me enseñaron a mirar gráficos y visualizaciones de los datos como primer paso. No puedo enfatizar eso lo suficiente. Si el conjunto de datos es demasiado grande para que un humano lo vea en una pantalla, entonces debe submuestrearse a una resolución que sea legible para humanos.

Olivia Grigg
fuente
Por favor, no firme sus publicaciones, para eso está el nombre de usuario en la parte inferior derecha de su publicación.
Glen_b -Reinstala a Monica el