Siempre me han enseñado que el CLT funciona cuando tiene muestras repetidas, y cada muestra es lo suficientemente grande. Por ejemplo, imagina que tengo un país de 1,000,000 de ciudadanos. Entiendo que CLT es que incluso si la distribución de sus alturas no era normal, si tomé 1000 muestras de 50 personas (es decir, realicé 1000 encuestas de 50 ciudadanos cada una), luego calculé su altura media para cada muestra, la distribución de estas muestras los medios serían normales.
Sin embargo, nunca he visto un caso del mundo real en el que los investigadores tomaron muestras repetidas. En cambio, toman una gran muestra (es decir, encuesta a 50,000 ciudadanos sobre su estatura) y trabajan a partir de eso.
¿Por qué los libros de estadística enseñan muestras repetidas y en el mundo real los investigadores solo realizan una sola muestra?
Editar: El caso del mundo real en el que estoy pensando es hacer estadísticas sobre un conjunto de datos de 50,000 usuarios de Twitter. Ese conjunto de datos obviamente no son muestras repetidas, es solo una gran muestra de 50,000.
Respuestas:
El CLT (al menos en algunas de sus diversas formas) nos dice que en el límite comon→∞ distribución de una media muestral estandarizada ( X¯−μσ/n√
Estrictamente hablando, esto no está demostrando el CLT, está más cerca de demostrar el teorema de Berry-Esseen, ya que demuestra algo sobre la velocidad a la que se aplica el enfoque de la normalidad, pero eso a su vez nos llevaría al CLT, por lo que sirve lo suficientemente bien como motivación (y de hecho, a menudo algo como el Berry-Esseen se acerca a lo que la gente realmente quiere usar en muestras finitas de todos modos, por lo que la motivación puede ser más útil en la práctica que el teorema del límite central) .
Bueno, no, no serían normales, pero en la práctica estarían muy cerca de lo normal (las alturas son algo inclinadas pero no demasiado inclinadas).
Para muchas distribuciones, una media muestral de 50,000 artículos tendría una distribución muy cercana a la normal, pero no está garantizado, incluso a n = 50,000 que tendrá una distribución muy cercana a la normal (si la distribución de los artículos individuales es suficientemente sesgada, por ejemplo, entonces la distribución de las medias muestrales puede ser lo suficientemente sesgada como para hacer insostenible una aproximación normal).
(El teorema de Berry-Esseen nos llevaría a anticipar que exactamente ese problema podría ocurrir, y de manera demostrable, lo hace. Es fácil dar ejemplos a los que se aplica el CLT pero para los cuales n = 50,000 no es una muestra lo suficientemente grande para el muestra estandarizada significa estar cerca de lo normal.)
fuente