Estimador de sesgo de momento de distribución lognormal

25

Estoy haciendo un experimento numérico que consiste en muestrear una distribución lognormal , y tratando de estimar los momentos por dos métodos:XLnorte(μ,σ)mi[Xnorte]

  1. Mirando la media muestral de laXnorte
  2. Estimando y usando las medias muestrales para , y luego usando el hecho de que para una distribución lognormal, tenemos .μσ2Iniciar sesión(X),Iniciar sesión2(X)mi[Xnorte]=exp(norteμ+(norteσ)2/ /2)

La pregunta es :

Experimentalmente, encuentro que el segundo método funciona mucho mejor que el primero, cuando mantengo fijo el número de muestras y aumento en algún factor T. ¿Hay alguna explicación simple para este hecho?μ,σ2

Adjunto una figura en la que el eje x es T, mientras que el eje y son los valores de comparando los valores verdaderos de (línea naranja), a los valores estimados. método 1: puntos azules, método 2: puntos verdes. el eje y está en escala logarítmicaE [ X 2 ] = exp ( 2 μ + 2 σ 2 )mi[X2]mi[X2]=exp(2μ+2σ2)

Valores verdaderos y estimados para $ \ mathbb {E} [X ^ 2] $.  Los puntos azules son medias de muestra para $ \ mathbb {E} [X ^ 2] $ (método 1), mientras que los puntos verdes son los valores estimados utilizando el método 2. La línea naranja se calcula a partir de los conocidos $ \ mu $, $ \ sigma $ por la misma ecuación que en el método 2. el eje y está en escala logarítmica

EDITAR:

A continuación se muestra un código mínimo de Mathematica para producir los resultados para una T, con la salida:

   ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];

(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];

(*Calculate directly: *)
rmomentSample = Mean[data^n];

(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];

(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}

Salida:

(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}

arriba, el segundo resultado es la media muestral de , que está debajo de los otros dos resultadosr2

usuario29918
fuente
2
Un estimador imparcial no implica que los puntos azules deben estar cerca del valor esperado (curva naranja). Un estimador puede ser imparcial si tiene una alta probabilidad de ser demasiado bajo y una probabilidad pequeña (tal vez muy pequeña) de ser demasiado alta. Eso es lo que está ocurriendo a medida que T aumenta y la varianza se vuelve enorme (ver mi respuesta).
Matthew Gunn
Para saber cómo obtener estimadores imparciales, consulte stats.stackexchange.com/questions/105717 . Los UMVUE de la media y la varianza se dan en las respuestas y comentarios a las mismas.
whuber

Respuestas:

22

Hay algo desconcertante en esos resultados desde

  1. el primer método proporciona un estimador imparcial de , a saber, 1mi[X2] tieneE[X2]como su media. Por lo tanto, los puntos azules deben estar alrededor del valor esperado (curva naranja);
    1norteyo=1norteXyo2
    mi[X2]
  2. el segundo método proporciona un estimador sesgado de , es decir, E [ exp ( n μ + n 2 σ 2 / 2 ) ] > exp ( n μ + ( n σ ) 2 / 2 ) cuando μ y σ ² son estimadores insesgados de μ y σ ²mi[X2]
    mi[exp(norteμ^+norte2σ^2/ /2)]>exp(norteμ+(norteσ)2/ /2)
    μ^σ^²μσ² respectivamente, y es extraño que los puntos verdes estén alineados con la curva naranja.

μTσT

Dos segundos momentos empíricos, basados ​​en simulaciones log-normales de 10⁶

Aquí está el código R correspondiente:

moy1=moy2=rep(0,200)
mus=0.14*(1:200)
sigs=sqrt(0.13*(1:200))
tru=exp(2*mus+2*sigs^2)
for (t in 1:200){
x=rnorm(1e5)
moy1[t]=mean(exp(2*sigs[t]*x+2*mus[t]))
moy2[t]=exp(2*mean(sigs[t]*x+mus[t])+2*var(sigs[t]*x+mus[t]))}

plot(moy1/tru,col="blue",ylab="relative mean",xlab="T",cex=.4,pch=19)
abline(h=1,col="orange")
lines((moy2/tru),col="green",cex=.4,pch=19)

μσμσ

mi[X2]X2X2mi2μX2exp{2μ+2σϵ}ϵnorte(0 0,1)σσϵσ2XLnorte(μ,σ)

PAGS(X2>mi[X2])=PAGS(Iniciar sesión{X2}>2μ+2σ2)=PAGS(μ+σϵ>μ+σ2)=PAGS(ϵ>σ)=1-Φ(σ)
Xi'an
fuente
1
También estoy perplejo. Estoy agregando un código mínimo con los resultados (Mathematica)
user29918
Okay. ¡Gracias! ¡Poniendo algunos números, veo ahora que mi escaso tamaño de muestra realmente no estaba listo para la tarea!
user29918
2
σ
2
P(X2>E[X2])=1Φ(σ)σσ
2
σ
13

Pensé en arrojar algunos higos que mostraban que tanto las tramas de user29918 como las de Xi'an son consistentes. La figura 1 traza lo que hizo user29918, y la figura 2 (basada en los mismos datos), hace lo que Xi'an hizo para su trama. Mismo resultado, diferente presentación.

1norteyoXyo2

Más comentarios:

  1. ¡Un estimador imparcial no significa que se espera que el estimador esté cerca! Los puntos azules no necesitan estar cerca de la expectativa. P.ej. una sola observación elegida al azar da una estimación imparcial de la media de la población, pero no se esperaría que ese estimador estuviera cerca.
  2. El problema está surgiendo a medida que la variación se está volviendo absolutamente astronómica. A medida que la varianza se vuelve loca, la estimación para el primer método está siendo impulsada por unas pocas observaciones. También comienzas a tener una pequeña, pequeña probabilidad de un número INSANELY, INSANELY, INSANELY big ...
  3. PAGS(X2>mi[X2])=1-Φ(σ)σX2>mi[X2]ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Matthew Gunn
fuente