Algunos libros indican un tamaño de muestra de tamaño 30 o superior es necesario para el teorema del límite central para dar una buena aproximación para .
Sé que esto no es suficiente para todas las distribuciones.
Deseo ver algunos ejemplos de distribuciones donde incluso con un gran tamaño de muestra (quizás 100, 1000 o más), la distribución de la media muestral todavía es bastante sesgada.
Sé que he visto tales ejemplos antes, pero no puedo recordar dónde y no puedo encontrarlos.
Respuestas:
Esta regla general común es casi completamente inútil. Hay distribuciones no normales para las cuales n = 2 funcionará bien y distribuciones no normales para las cuales mucho mayor es insuficiente, por lo que sin una restricción explícita de las circunstancias, la regla es engañosa. En cualquier caso, incluso si fuera cierto, la n requerida variaría según lo que estuvieras haciendo. A menudo se obtienen buenas aproximaciones cerca del centro de la distribución en n pequeña , pero se necesita una n mucho mayorn n n n para obtener una aproximación decente en la cola.
Editar: Vea las respuestas a esta pregunta para obtener numerosas pero aparentemente unánimes opiniones sobre ese tema, y algunos buenos enlaces. Sin embargo, no voy a expresar el punto, ya que ya lo entiendes claramente.
Los ejemplos son relativamente fáciles de construir; Una manera fácil es encontrar una distribución infinitamente divisible que no sea normal y dividirla. Si tiene uno que se acercará a lo normal cuando lo promedia o lo resume, comience en el límite de 'cerca de lo normal' y divídalo tanto como desee. Así por ejemplo:
Considere una distribución Gamma con el parámetro de forma . Tome la escala como 1 (la escala no importa). Supongamos que considera que Gamma ( α 0 , 1 ) es simplemente "suficientemente normal". Entonces una distribución para el que necesita para conseguir 1000 observaciones sean suficientemente normal tiene una Gamma ( α 0 / 1000 , 1 )α Gamma(α0,1) Gamma(α0/1000,1) de distribución.
Entonces, si siente que un Gamma con es simplemente 'lo suficientemente normal',α=20
Luego divida por 1000, para obtener α = 0.02 :α=20 α=0.02
El promedio de 1000 de ellos tendrá la forma del primer pdf (pero no su escala).
El punto de @ whuber sobre distribuciones contaminadas es muy bueno; Puede pagar probar alguna simulación con ese caso y ver cómo se comportan las cosas en muchas de esas muestras.
fuente
Además de las muchas excelentes respuestas proporcionadas aquí, Rand Wilcox ha publicado excelentes documentos sobre el tema y ha demostrado que nuestra comprobación típica de la adecuación de la aproximación normal es bastante engañosa (y subestima el tamaño de muestra necesario). Él señala que la media puede ser aproximadamente normal, pero eso es solo la mitad de la historia cuando no sabemosσ . Cuandoσ es desconocido, normalmente usamos el t distribución para pruebas y límites de confianza. La varianza de la muestra puede estar muy, muy lejos de una escalaχ2 distribución y el resultante t la relación puede no parecerse a una t distribución cuando n = 30 . En pocas palabras, la no normalidad arruinas2 más de lo que arruina X¯ .
fuente
Puede encontrar este documento útil (o al menos interesante):
http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf
Los investigadores de UMass en realidad llevaron a cabo un estudio similar a lo que estás preguntando. ¿A qué tamaño de muestra siguen ciertos datos distribuidos una distribución normal debido a CLT? Aparentemente, una gran cantidad de datos recopilados para los experimentos de psicología no se distribuyen de manera normal, por lo que la disciplina depende en gran medida del CLT para hacer alguna inferencia en sus estadísticas.
Primero, realizaron pruebas con datos uniformes, bimodales y una distribución normal. Usando Kolmogorov-Smirnov, los investigadores probaron cuántas de las distribuciones fueron rechazadas por normalidad en elα = 0.05 nivel.
Por extraño que parezca, el 65 por ciento de los datos distribuidos normalmente fueron rechazados con un tamaño de muestra de 20, e incluso con un tamaño de muestra de 30, el 35% todavía fueron rechazados.
Luego probaron varias distribuciones muy sesgadas creadas utilizando el método de poder de Fleishman:
X representa el valor extraído de la distribución normal, mientras que a, b, cyd son constantes (tenga en cuenta que a = -c).
Corrieron las pruebas con tamaños de muestra de hasta 300
Encontraron que en los niveles más altos de sesgo y kurt (1.75 y 3.75) que los tamaños de muestra de 300 no producían medias de muestra que siguieran una distribución normal.
Desafortunadamente, no creo que esto sea exactamente lo que estás buscando, pero me topé con él y lo encontré interesante, y pensé que tú también.
fuente