¿Por qué se rompe el Teorema del límite central en mi simulación?

21

Digamos que tengo los siguientes números:

4,3,5,6,5,3,4,2,5,4,3,6,5

Muestro algunos de ellos, digamos, 5 de ellos, y calculo la suma de 5 muestras. Luego repito eso una y otra vez para obtener muchas sumas, y trazo los valores de las sumas en un histograma, que será gaussiano debido al Teorema del límite central.

Pero cuando siguen los números, acabo de reemplazar 4 con algún número grande:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

Las sumas de muestreo de 5 muestras de estas nunca se convierten en gaussianas en el histograma, sino más bien como una división y se convierten en dos gaussianas. ¿Porqué es eso?

JimSD
fuente
1
No lo hará si lo aumenta a más de n = 30 más o menos ... solo mi sospecha y una versión más sucinta / reexpresión de la respuesta aceptada a continuación.
oemb1905
@JimSD el CLT es un resultado asintótico (es decir, sobre la distribución de las medias o sumas de muestra estandarizadas en el límite a medida que el tamaño de la muestra llega al infinito). no es n . Lo que está viendo (el enfoque hacia la normalidad en muestras finitas) no es estrictamente un resultado del CLT, sino un resultado relacionado. n=5n
Glen_b -Reinstala a Monica el
3
@ oemb1905 n = 30 no es suficiente para el tipo de asimetría que sugiere OP. Dependiendo de cuán rara sea la contaminación con un valor como , podría tomar n = 60 o n = 100 o incluso más antes de que lo normal parezca una aproximación razonable. Si la contaminación es de aproximadamente el 7% (como en la pregunta) n = 120 todavía está algo sesgada107
Glen_b -Reinstale a Monica el
Piense que nunca se alcanzarán valores en intervalos como (1,100,000, 1,900,000). Pero si obtiene una cantidad decente de esas sumas, ¡funcionará!
David

Respuestas:

18

Recordemos, precisamente, lo que dice el teorema del límite central.

Si X1,X2,,Xk son variables aleatorias independientes e idénticamente distribuidas con media (compartida) μ y desviación estándar σ , entonces X1+X2++Xkkσk converge en distribución a una distribución normal estándarN(0,1)(*).

Esto se usa a menudo en la forma "informal":

Si X1,X2,,Xk son variables aleatorias independientes e idénticamente distribuidas con media (compartida) μ y desviación estándar σ , entonces X1+X2++Xk converge "en distribución" a una distribución normal estándar N(kμ,kσ).

No hay una buena manera de hacer que la forma del CLT sea matemáticamente precisa, ya que el cambio de distribución "límite", pero es útil en las prácticas.

Cuando tenemos una lista estática de números como

4,3,5,6,5,3,10000000,2,5,4,3,6,5

y estamos tomando muestras tomando un número al azar de esta lista, para aplicar el teorema del límite central necesitamos asegurarnos de que nuestro esquema de muestreo satisfaga estas dos condiciones de independencia y esté distribuido de manera idéntica.

  • Distribuido de forma idéntica no es un problema: cada número de la lista tiene la misma probabilidad de ser elegido.
  • Independiente es más sutil y depende de nuestro esquema de muestreo. Si estamos tomando muestras sin reemplazo , entonces violamos la independencia. Solo cuando tomamos muestras con reemplazo es aplicable el teorema del límite central.

Por lo tanto, si utilizamos el muestreo de reemplazo en su esquema, entonces deberíamos poder aplicar el teorema del límite central. Al mismo tiempo, tiene razón, si nuestra muestra es de tamaño 5, entonces veremos un comportamiento muy diferente dependiendo de si se elige el número muy grande o no en nuestra muestra.

Entonces, ¿cuál es el problema? Bueno, la tasa de convergencia a una distribución normal depende mucho de la forma de la población de la que estamos tomando muestras, en particular, si nuestra población es muy sesgada, esperamos que tarde mucho tiempo en converger a la normalidad. Este es el caso en nuestro ejemplo, por lo que no debemos esperar que una muestra de tamaño 5 sea suficiente para mostrar la estructura normal.

Tres distribuciones normales

Arriba repetí su experimento (con muestreo de reemplazo) para muestras de tamaño 5, 100 y 1000. Puede ver que la estructura normal es emergente para muestras muy grandes.

(*) Tenga en cuenta que aquí se necesitan algunas condiciones técnicas, como la media finita y la varianza. Se verifica fácilmente para que sean verdaderas en nuestro muestreo a partir de un ejemplo de lista.

Matthew Drury
fuente
Gracias por una respuesta muy rápida y perfecta. Idea de CLT, reemplazo, la necesidad de más muestras cuando la distribución de datos está sesgada ... Ahora está muy claro. Mi intención original de pregunta es, tal como lo mencionó, el caso cuando se incluye un gran número sin reemplazo y el número de muestreo es fijo. Se comporta de manera muy diferente y, por lo tanto, debemos considerar el CLT "condicional" para el caso en que se muestrea un gran número y no en el caso. Me pregunto si hay alguna investigación o trabajo previo para eso ... Pero gracias de todos modos.
JimSD
no sé si corresponde aquí, pero el teorema de la convergencia de CLT regulado por asimetría es.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem
seanv507
Xkk
1
|Fn(x)Φ(x)|ρ/σ3
1
@Glen_b Yah, estaba siendo un poco informal (lo que tal vez no debería haber sido), pero puedo arreglarlo esta tarde ya que ha generado un poco de confusión.
Matthew Drury
12

5305

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

ingrese la descripción de la imagen aquí

30

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

ingrese la descripción de la imagen aquí

100

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

ingrese la descripción de la imagen aquí

zen
fuente
3
No es la varianza lo que es un problema. Una forma de obtener un control riguroso es usar la relación del tercer momento central a la desviación estándar en cubos, como en el teorema de Berry-Esseen.
chico
Perfecto. Adicional. Tks
Zen
1
Gracias por una respuesta rápida, visual y perfecta con un código. ¡Me sorprendió mucho lo rápido que fue! No estaba al tanto de la cantidad adecuada de muestreo. Estaba pensando en el caso donde se fija el número de muestreo.
JimSD
@ Guy, gracias por eso. No conocía la idea de "la relación entre el tercer momento central y la desviación estándar en cubos en el teorema de Berry-Esseen" . Solo deseo abordar el caso en el que hay un gran número, ya que el valor atípico se incluye en la distribución. Y supongo que se puede hacer referencia a ese tipo de distribución como mencionaste. Si conoce algún trabajo previo relacionado con ese tipo de distribución, hágamelo saber, gracias.
JimSD
2
ρ=E[|Xμ|3]μ3=E[(Xμ)3]
7

Solo me gustaría explicar, utilizando funciones complejas generadoras de acumulantes , por qué todos siguen atribuyendo esto a la asimetría.

μ+σZμσZ01Z12t2iγ16t3+o(t3)γ1Zκ3μ+σZγ1=σ3κ3

nZn

n(12(tn)2iγ16(tn)3)+o(t3)=12t2iγ16nt3+o(t3).
tnnγ12γ1

JG
fuente
-1

La respuesta corta es que no tiene una muestra lo suficientemente grande como para aplicar el teorema del límite central.

feynman
fuente
1
Que esto no puede ser una explicación válida es evidente a partir de la observación de que el CLT da una buena aproximación para el primer conjunto de datos en la pregunta, que es igualmente pequeño.
whuber
@whuber: Creo que está diciendo que la distribución normal proporciona una aproximación razonablemente buena para una muestra de cinco del primer conjunto. Dado que solo hay un número finito de valores para las sumas (13 valores posibles sin reemplazo y 21 valores posibles con reemplazo), la aproximación no mejora mucho con un gran número de muestras de cinco, y la aproximación inicial se debe más a el patrón inicial ...
Henry
@whuber Dado que la distribución del primer conjunto parece sesgada a la izquierda, esperaría que la suma de cinco también quede sesgada, de una manera menos extrema de lo que esperaría que la suma de cinco del segundo conjunto sea sesgada a la derecha. Para que la asimetría se reduzca aún más, habría pensado que necesitarías un tamaño de muestra más grande
Henry
1
@ Henry Gracias por tus comentarios. No estaba haciendo un comentario sobre estas circunstancias particulares, sino solo sobre la lógica de esta respuesta, con la esperanza de que pudiera explicarse más.
whuber