Definición del tiempo de autocorrelación (para un tamaño de muestra efectivo)

23

He encontrado dos definiciones en la literatura para el tiempo de autocorrelación de una serie temporal débilmente estacionaria:

τ_{a} = 1 + 2 \sum_{k = 1}^{\infty} ρ_{k} versus τ_{b} = 1 + 2 \sum_{k = 1}^{\infty} | ρ_{k} |

$\tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right|$

donde $\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}$ es la autocorrelación en el retraso $k$ .

Una aplicación del tiempo de autocorrelación es encontrar el "tamaño de muestra efectivo": si tiene observaciones de una serie de tiempo y sabe que es el tiempo de autocorrelación , puede fingir que tiene $n$ $\tau$

n_{eff} = \frac{n}{τ}

$n_\text{eff} = \frac{n}{\tau}$

muestras independientes en lugar de $n$ correlacionadas con el fin de encontrar la media. La estimación de partir de los datos no es trivial, pero hay algunas formas de hacerlo (ver Thompson 2010 ). $\tau$

La definición sin valores absolutos, , parece más común en la literatura; pero admite la posibilidad de . Usando R y el paquete "coda": $\tau_a$ $\tau_a<1$

require(coda)
ts.uncorr <- arima.sim(model=list(),n=10000)         # white noise 
ts.corr <- arima.sim(model=list(ar=-0.5),n=10000)    # AR(1)
effectiveSize(ts.uncorr)                             # Sanity check
    # result should be close to 10000
effectiveSize(ts.corr)
    # result is in the neighborhood of 30000... ???

La función "efectiveSize" en "coda" utiliza una definición del tiempo de autocorrelación equivalente a , arriba. Hay algunos otros paquetes R que calculan el tamaño efectivo de la muestra o el tiempo de autocorrelación, y todos los que he probado dan resultados consistentes con esto: que un proceso AR (1) con un coeficiente AR negativo tienemuestrasmásefectivas que las correlacionadas series de tiempo. Esto parece extraño $\tau_a$

Obviamente, esto nunca puede suceder en el definición del tiempo de autocorrelación. $\tau_b$

¿Cuál es la definición correcta de tiempo de autocorrelación? ¿Hay algún problema con mi comprensión de los tamaños de muestra efectivos? El muestra arriba parece que debe estar equivocado ... ¿qué está pasando? $n_\text{eff} > n$

r time-series correlation andrewtinka
fuente

Solo para asegurarme de que no he entendido mal, ¿no se supone que eso es

lugar de

?

C o v (X_{t}, X_{t + k})

$Cov(X_t,X_{t+k})$

h

$h$

sachinruk

2

Estoy interesado en la segunda definición, es decir,

. ¿Podría proporcionar la literatura donde la encontró?

τ_{b}

$\tau_b$

Harry

17

Primero, la definición apropiada de "tamaño de muestra efectivo" está vinculada a una pregunta bastante específica. Si se distribuyen idénticamente con media y varianza 1 la media empírica $X_1, X_2, \ldots$ $\mu$ es un estimador insesgado de. ¿Pero qué hay de su varianza? Paravariablesindependientesla varianza es. Para una serie de tiempo débilmente estacionaria, la varianza de es

\hat{μ} = \frac{1}{n} \sum_{k = 1}^{n} X_{k}

$\hat{\mu} = \frac{1}{n} \sum_{k=1}^n X_k$

μ

$\mu$

n^{- 1}

$n^{-1}$

\hat{μ}

$\hat{\mu}$

\frac{1}{n^{2}} \sum_{k, l = 1}^{n} cov (X_{k}, X_{l}) = \frac{1}{n} (1 + 2 (\frac{n - 1}{n} ρ_{1} + \frac{n - 2}{n} ρ_{2} + \dots + \frac{1}{n} ρ_{n - 1})) ≃ \frac{τ_{a}}{n} .

$\frac{1}{n^2} \sum_{k, l=1}^n \text{cov}(X_k, X_l) = \frac{1}{n}\left(1 + 2\left(\frac{n-1}{n} \rho_1 + \frac{n-2}{n} \rho_2 + \ldots + \frac{1}{n} \rho_{n-1}\right) \right) \simeq \frac{\tau_a}{n}.$ The approximation is valid for large enough

n

$n$ . If we define

n_{eff} = n / τ_{a}

$n_{\text{eff}} = n/\tau_a$ , the variance of the empirical mean for a weakly stationary time series is approximately

n_{eff}^{- 1}

$n_{\text{eff}}^{-1}$ , which is the same variance as if we had

n_{eff}

$n_{\text{eff}}$ independent samples. Thus

n_{eff} = n / τ_{a}

$n_{\text{eff}} = n/\tau_a$ is an appropriate definition if we ask for the variance of the empirical average. It might be inappropriate for other purposes.

With a negative correlation between observations it is certainly possible that the variance can become smaller than $n^{-1}$ ( $n_{\text{eff}} > n$ ). This is a well known variance reduction technique in Monto Carlo integration: If we introduce negative correlation between the variables instead of correlation 0, we can reduce the variance without increasing the sample size.

NRH
fuente

2

For anyone who wants to know more about the use of negative correlation in Monte Carlo simulation, try googling "antithetic variates". More info in course notes here or here.

andrewtinka

1

see http://arxiv.org/pdf/1403.5536v1.pdf

and

https://cran.r-project.org/web/packages/mcmcse/mcmcse.pdf

for effective sample size. I think the alternative formulation using the ratio of sample variance and asymptotic Markov chain variance via batch mean is more appropriate estimator.

subhadip pal
fuente

4

Could you expand on the content in those links? As it stand, sthis is too short for an answer by our standards!

kjetil b halvorsen

Definición del tiempo de autocorrelación (para un tamaño de muestra efectivo)

Respuestas: