¿Por qué la media aritmética es menor que la media de distribución en una distribución logarítmica normal?

13

Entonces, tengo un proceso aleatorio que genera variables aleatorias distribuidas normalmente X. Aquí está la función de densidad de probabilidad correspondiente:

Figura que representa una función de densidad de probabilidad lognormal

Quería estimar la distribución de unos pocos momentos de esa distribución original, digamos el primer momento: la media aritmética. Para hacerlo, dibujé 100 variables aleatorias 10000 veces para poder calcular 10000 estimados de la media aritmética.

Hay dos formas diferentes de estimar esa media (al menos, eso es lo que entendí: podría estar equivocado):

  1. simplemente calculando la media aritmética de la manera habitual:
    X¯=i=1NXiN.
  2. o estimando primero y partir de la distribución normal subyacente: y luego la media comoσμ
    μ=i=1Nlog(Xi)Nσ2=i=1norte(Iniciar sesión(Xyo)-μ)2norte
    X¯=Exp(μ+12σ2).

El problema es que las distribuciones correspondientes a cada una de estas estimaciones son sistemáticamente diferentes:

Los dos estimadores dan diferentes distribuciones como se muestra en la imagen.

La media "sin formato" (representada como la línea discontinua roja) proporciona valores generalmente más bajos que el derivado de la forma exponencial (línea sin formato verde). Aunque ambas medias se calculan exactamente en el mismo conjunto de datos. Tenga en cuenta que esta diferencia es sistemática.

¿Por qué estas distribuciones no son iguales?

JohnW
fuente
¿Cuáles son sus verdaderos parámetros para y σ ? μσ
Christoph Hanck
y σ = 1.5 , pero tenga en cuenta que estoy interesado en estimar estos parámetros, de ahí el enfoque de Montecarlo en lugar de calcular la cosa a partir de estos números brutos. μ=3σ=1.5
JohnW
claro, esto es para replicar sus resultados.
Christoph Hanck
44
Curiosamente, este fenómeno no tiene nada que ver con la lognormalidad. Dados los números positivos con logaritmos y i , es bien sabido que su media aritmética (AM) x i / n nunca es menor que su media geométrica (GM) exp ( y i / n ) . En la otra dirección, el AM nunca es mayor que el GM multiplicado por exp ( s 2 y / 2 ) donde s 2 y es la varianza del y ixiyixi/nexp(yi/n)exp(sy2/2)sy2yi. Por lo tanto, la curva roja punteada debe estar a la izquierda de la curva verde sólida para cualquier distribución principal (que describe números aleatorios positivos).
whuber
Si gran parte de la media proviene de una pequeña probabilidad de números enormes, una media aritmética de muestra finita puede subestimar la media de la población con alta probabilidad. (En la expectativa es imparcial, pero hay una gran probabilidad de una pequeña subestimación y una pequeña probabilidad de una gran sobreestimación). Esta pregunta también puede relacionarse con esta: stats.stackexchange.com/questions/214733/…
Matthew Gunn

Respuestas:

12

Los dos estimadores que está comparando son el método de estimador de momentos (1.) y el MLE (2.), vea aquí . Ambos son coherentes (por lo que para gran , que son en cierto sentido probable que sea cercano al valor verdadero exp [ μ + 1 / 2 σ 2 ] ).Nexp[μ+1/2σ2]

Para el estimador MM, esto es una consecuencia directa de la Ley de grandes números, que dice que . Para el MLE, la aplicación continua teorema implica que exp [ μ + 1 / 2 σ 2 ] p exp [ μ + 1 / 2 σ 2 ] , como μp μ y σ 2 X¯pE(Xi)

exp[μ^+1/2σ^2]pexp[μ+1/2σ2],
μ^pμ .σ^2pσ2

El MLE, sin embargo, no es imparcial.

Nμ^σ^2N=100N1μσ2

E(μ^+1/2σ^2)μ+1/2σ2

E[exp(μ^+1/2σ^2)]>exp[E(μ^+1/2σ^2)]exp[μ+1/2σ2]

N=100

N=1000

ingrese la descripción de la imagen aquí

Creado con:

N <- 1000
reps <- 10000

mu <- 3
sigma <- 1.5
mm <- mle <- rep(NA,reps)

for (i in 1:reps){
  X <- rlnorm(N, meanlog = mu, sdlog = sigma)
  mm[i] <- mean(X)

  normmean <- mean(log(X))
  normvar <- (N-1)/N*var(log(X))
  mle[i] <- exp(normmean+normvar/2)
}
plot(density(mm),col="green",lwd=2)
truemean <- exp(mu+1/2*sigma^2)
abline(v=truemean,lty=2)
lines(density(mle),col="red",lwd=2,lty=2)

> truemean
[1] 61.86781

> mean(mm)
[1] 61.97504

> mean(mle)
[1] 61.98256

exp(μ+σ2/2)

Vt=(σ2+σ4/2)exp{2(μ+12σ2)},
exp{2(μ+12σ2)}(exp{σ2}1)
exp{σ2}>1+σ2+σ4/2,
exp(x)=i=0xi/i!σ2>0

NN <- c(50,100,200,500,1000,2000,3000,5000)

ingrese la descripción de la imagen aquí

Nnortenorte=50

> tail(sort(mm))
[1] 336.7619 356.6176 369.3869 385.8879 413.1249 784.6867
> tail(sort(mle))
[1] 187.7215 205.1379 216.0167 222.8078 229.6142 259.8727 
Christoph Hanck
fuente
norte
1
norte=100norte
2
Bueno, también me sorprende que haya una diferencia tan grande entre los dos métodos, sin embargo, este ejemplo es absolutamente perfecto para demostrar por qué "simplemente promediar cosas" puede ser horrible.
JohnW
1
@ JohnW, agregué una pequeña explicación analítica de por qué el MLE tiene una varianza menor.
Christoph Hanck
1
La discrepancia se deriva del hecho de que el sesgo es un problema de muestra finita, es decir, desaparece a medida que nortese va al infinito La comparación de la varianza asintótica (como su nombre lo indica) solo muestra lo que sucede en el límite, comonorte.
Christoph Hanck