¿Por qué funciona el teorema del límite central con una sola muestra?

Siempre me han enseñado que el CLT funciona cuando tiene muestras repetidas, y cada muestra es lo suficientemente grande. Por ejemplo, imagina que tengo un país de 1,000,000 de ciudadanos. Entiendo que CLT es que incluso si la distribución de sus alturas no era normal, si tomé 1000 muestras de 50 personas (es decir, realicé 1000 encuestas de 50 ciudadanos cada una), luego calculé su altura media para cada muestra, la distribución de estas muestras los medios serían normales.

Sin embargo, nunca he visto un caso del mundo real en el que los investigadores tomaron muestras repetidas. En cambio, toman una gran muestra (es decir, encuesta a 50,000 ciudadanos sobre su estatura) y trabajan a partir de eso.

¿Por qué los libros de estadística enseñan muestras repetidas y en el mundo real los investigadores solo realizan una sola muestra?

Editar: El caso del mundo real en el que estoy pensando es hacer estadísticas sobre un conjunto de datos de 50,000 usuarios de Twitter. Ese conjunto de datos obviamente no son muestras repetidas, es solo una gran muestra de 50,000.

sampling central-limit-theorem Anton
fuente

Tomar una muestra de 1000 de 50,000 es casi lo mismo que tomar 1000 muestras individuales independientemente de 50,000. Cuanto más pequeña sea la muestra (o más grande el universo), más se parecerán.

Thomas Ahle

El CLT (al menos en algunas de sus diversas formas) nos dice que en el límite como $n\to\infty$ distribución de una media muestral estandarizada ( $\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$

$n=50$ $n=50,000$

$\bar{X}$

Estrictamente hablando, esto no está demostrando el CLT, está más cerca de demostrar el teorema de Berry-Esseen, ya que demuestra algo sobre la velocidad a la que se aplica el enfoque de la normalidad, pero eso a su vez nos llevaría al CLT, por lo que sirve lo suficientemente bien como motivación (y de hecho, a menudo algo como el Berry-Esseen se acerca a lo que la gente realmente quiere usar en muestras finitas de todos modos, por lo que la motivación puede ser más útil en la práctica que el teorema del límite central) .

La distribución de estas medias muestrales sería normal.

Bueno, no, no serían normales, pero en la práctica estarían muy cerca de lo normal (las alturas son algo inclinadas pero no demasiado inclinadas).

$n=50$

El caso del mundo real en el que estoy pensando es hacer estadísticas sobre un conjunto de datos de 50,000 usuarios de Twitter. Ese conjunto de datos obviamente no son muestras repetidas, es solo una gran muestra de 50,000.

Para muchas distribuciones, una media muestral de 50,000 artículos tendría una distribución muy cercana a la normal, pero no está garantizado, incluso a n = 50,000 que tendrá una distribución muy cercana a la normal (si la distribución de los artículos individuales es suficientemente sesgada, por ejemplo, entonces la distribución de las medias muestrales puede ser lo suficientemente sesgada como para hacer insostenible una aproximación normal).

(El teorema de Berry-Esseen nos llevaría a anticipar que exactamente ese problema podría ocurrir, y de manera demostrable, lo hace. Es fácil dar ejemplos a los que se aplica el CLT pero para los cuales n = 50,000 no es una muestra lo suficientemente grande para el muestra estandarizada significa estar cerca de lo normal.)

Glen_b -Reinstate a Monica
fuente

Para verificar si 50,000 es lo suficientemente grande, uno podría hacer una simulación en R por ejemplo, ¿correcto? Usaría la media y la desviación estándar de la muestra, pero ¿cómo me aseguraría de simular a partir de la misma distribución de mi muestra?

Amonet

Estrictamente hablando, debe simular a partir de la distribución de la población. Usted podría tratar a la distribución de la muestra como una estimación de la distribución de la población (esto es similar a bootstrapping) - pero esto no va a ser adecuado para tal fin. Como ejemplo, considere haber extraído una muestra de una distribución de Cauchy y luego volver a muestrear con reemplazo. (para muestras cada vez más grandes), hasta que la distribución de los medios muestreados parezca "suficientemente normal". Usted siempre se llega a la conclusión de que algunos tamaño de la muestra finita es suficiente, pero en realidad nunca lo sería.

Glen_b -Reinstala a Monica

¿Por qué funciona el teorema del límite central con una sola muestra?

Respuestas: