Digamos que tengo los siguientes números:
4,3,5,6,5,3,4,2,5,4,3,6,5
Muestro algunos de ellos, digamos, 5 de ellos, y calculo la suma de 5 muestras. Luego repito eso una y otra vez para obtener muchas sumas, y trazo los valores de las sumas en un histograma, que será gaussiano debido al Teorema del límite central.
Pero cuando siguen los números, acabo de reemplazar 4 con algún número grande:
4,3,5,6,5,3,10000000,2,5,4,3,6,5
Las sumas de muestreo de 5 muestras de estas nunca se convierten en gaussianas en el histograma, sino más bien como una división y se convierten en dos gaussianas. ¿Porqué es eso?
central-limit-theorem
JimSD
fuente
fuente
Respuestas:
Recordemos, precisamente, lo que dice el teorema del límite central.
Esto se usa a menudo en la forma "informal":
No hay una buena manera de hacer que la forma del CLT sea matemáticamente precisa, ya que el cambio de distribución "límite", pero es útil en las prácticas.
Cuando tenemos una lista estática de números como
y estamos tomando muestras tomando un número al azar de esta lista, para aplicar el teorema del límite central necesitamos asegurarnos de que nuestro esquema de muestreo satisfaga estas dos condiciones de independencia y esté distribuido de manera idéntica.
Por lo tanto, si utilizamos el muestreo de reemplazo en su esquema, entonces deberíamos poder aplicar el teorema del límite central. Al mismo tiempo, tiene razón, si nuestra muestra es de tamaño 5, entonces veremos un comportamiento muy diferente dependiendo de si se elige el número muy grande o no en nuestra muestra.
Entonces, ¿cuál es el problema? Bueno, la tasa de convergencia a una distribución normal depende mucho de la forma de la población de la que estamos tomando muestras, en particular, si nuestra población es muy sesgada, esperamos que tarde mucho tiempo en converger a la normalidad. Este es el caso en nuestro ejemplo, por lo que no debemos esperar que una muestra de tamaño 5 sea suficiente para mostrar la estructura normal.
Arriba repetí su experimento (con muestreo de reemplazo) para muestras de tamaño 5, 100 y 1000. Puede ver que la estructura normal es emergente para muestras muy grandes.
(*) Tenga en cuenta que aquí se necesitan algunas condiciones técnicas, como la media finita y la varianza. Se verifica fácilmente para que sean verdaderas en nuestro muestreo a partir de un ejemplo de lista.
fuente
fuente
Solo me gustaría explicar, utilizando funciones complejas generadoras de acumulantes , por qué todos siguen atribuyendo esto a la asimetría.
fuente
La respuesta corta es que no tiene una muestra lo suficientemente grande como para aplicar el teorema del límite central.
fuente