Definición del tiempo de autocorrelación (para un tamaño de muestra efectivo)

23

He encontrado dos definiciones en la literatura para el tiempo de autocorrelación de una serie temporal débilmente estacionaria:

τa=1+2k=1ρkversusτb=1+2k=1|ρk|

donde ρk=Cov[Xt,Xt+h]Var[Xt] es la autocorrelación en el retrasok.

Una aplicación del tiempo de autocorrelación es encontrar el "tamaño de muestra efectivo": si tiene observaciones de una serie de tiempo y sabe que es el tiempo de autocorrelación τ , puede fingir que tienenτ

neff=nτ

muestras independientes en lugar de n correlacionadas con el fin de encontrar la media. La estimación de partir de los datos no es trivial, pero hay algunas formas de hacerlo (ver Thompson 2010 ).τ

La definición sin valores absolutos, , parece más común en la literatura; pero admite la posibilidad de τ a < 1 . Usando R y el paquete "coda":τaτa<1

require(coda)
ts.uncorr <- arima.sim(model=list(),n=10000)         # white noise 
ts.corr <- arima.sim(model=list(ar=-0.5),n=10000)    # AR(1)
effectiveSize(ts.uncorr)                             # Sanity check
    # result should be close to 10000
effectiveSize(ts.corr)
    # result is in the neighborhood of 30000... ???

La función "efectiveSize" en "coda" utiliza una definición del tiempo de autocorrelación equivalente a , arriba. Hay algunos otros paquetes R que calculan el tamaño efectivo de la muestra o el tiempo de autocorrelación, y todos los que he probado dan resultados consistentes con esto: que un proceso AR (1) con un coeficiente AR negativo tienemuestrasmásefectivas que las correlacionadas series de tiempo. Esto parece extraño τa

Obviamente, esto nunca puede suceder en el definición τ b del tiempo de autocorrelación.τb

¿Cuál es la definición correcta de tiempo de autocorrelación? ¿Hay algún problema con mi comprensión de los tamaños de muestra efectivos? El muestra arriba parece que debe estar equivocado ... ¿qué está pasando?neff>n

andrewtinka
fuente
Solo para asegurarme de que no he entendido mal, ¿no se supone que eso es lugar de h ? Cov(Xt,Xt+k)h
sachinruk
2
Estoy interesado en la segunda definición, es decir, . ¿Podría proporcionar la literatura donde la encontró? τb
Harry

Respuestas:

17

Primero, la definición apropiada de "tamaño de muestra efectivo" está vinculada a una pregunta bastante específica. Si se distribuyen idénticamente con media μ y varianza 1 la media empírica μ = 1X1,X2,μ es un estimador insesgado deμ. ¿Pero qué hay de su varianza? Paravariablesindependientesla varianza esn-1. Para una serie de tiempo débilmente estacionaria, la varianza de μ es 1

μ^=1nk=1nXk
μn1μ^
1n2k,l=1ncov(Xk,Xl)=1n(1+2(n1nρ1+n2nρ2++1nρn1))τan.
The approximation is valid for large enough n. If we define neff=n/τa, the variance of the empirical mean for a weakly stationary time series is approximately neff1, which is the same variance as if we had neff independent samples. Thus neff=n/τa is an appropriate definition if we ask for the variance of the empirical average. It might be inappropriate for other purposes.

With a negative correlation between observations it is certainly possible that the variance can become smaller than n1 (neff>n). This is a well known variance reduction technique in Monto Carlo integration: If we introduce negative correlation between the variables instead of correlation 0, we can reduce the variance without increasing the sample size.

NRH
fuente
2
For anyone who wants to know more about the use of negative correlation in Monte Carlo simulation, try googling "antithetic variates". More info in course notes here or here.
andrewtinka