Construyendo una serie de tiempo que incluye múltiples observaciones para cada fecha

11

Estoy tratando de aplicar una serie temporal a los datos muestreados trimestralmente (biomasa animal) durante un período de 10 años con 3 repeticiones por trimestre. Entonces 40 fechas pero 120 observaciones totales.

Leí a SARIMA'a en Shumway y Stoffer's Time Series Analysis y sus aplicaciones, así como hojeé Woodward, et. Análisis de series de tiempo aplicadas de al., y entiendo que cada modelo se basa en una sola observación en cada punto de la serie de tiempo.

PREGUNTA: ¿Cómo puedo incluir la variación en cada observación en mi modelo? Podría construir una serie sobre la media, pero perdería la variación en cada observación y creo que es fundamental para comprender lo que está sucediendo.


fuente
SARIMA puede extenderse a casos multivariados, lo que puede ser apropiado para usted. La palabra clave en este caso es VAR. Esto significa que observa un vector de números en lugar de un número para cada período de tiempo.
mpiktas

Respuestas:

4

Dependiendo de qué quiere decir exactamente con "3 repeticiones por trimestre", un modelo de datos de panel ( wikipedia ) puede tener sentido. Esto significaría que está tomando tres mediciones cada trimestre, una de cada una de las tres fuentes distintas que se mantienen igual con el tiempo. Sus datos se verían así:

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5 

Si esto es lo que está viendo, hay varios modelos para trabajar con datos de panel. Aquí hay una presentación decente que cubre algunos de los R básicos que usaría para ver los datos del panel. Este documento profundiza un poco más, aunque desde un punto de vista econométrico.

Sin embargo, si sus datos no concuerdan con las metodologías de datos del panel, existen otras herramientas disponibles para "datos agrupados". Una definición de este documento (pdf) :

La agrupación de datos significa análisis estadístico utilizando múltiples fuentes de datos relacionadas con múltiples poblaciones. Abarca promedios, comparaciones e interpretaciones comunes de la información. También surgen diferentes escenarios y problemas dependiendo de si las fuentes de datos y las poblaciones involucradas son iguales / similares o diferentes.

Como puede ver, a partir de esa definición, las técnicas que utilizará dependerán exactamente de lo que espere aprender de sus datos.

Si tuviera que sugerirle un lugar para comenzar, suponiendo que sus tres sorteos para cada trimestre sean consistentes a lo largo del tiempo, diría que comience usando un estimador de efectos fijos (también conocido como estimador interno) con un modelo de datos de panel de su datos.

Para mi ejemplo anterior, el código se vería así:

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

Lo que nos da el siguiente resultado:

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06 

Aquí podemos ver claramente el efecto del tiempo en el coeficiente de la variable cuarto, así como el efecto de estar en el grupo B o el grupo C (en oposición al grupo A).

Espero que esto te señale en algún lugar en la dirección correcta.

Wilduck
fuente
3

Creo que esto es interesante. Mi sugerencia sería promediar los tres puntos de datos para obtener una serie temporal sin problemas. Al señalar que si hace esto ignorando que tomó el promedio de tres observaciones, está arrojando información. Pero para cada punto de tiempo puedes sumar las desviaciones al cuadrado de la media. Combine esas sumas de cuadrados en todos los períodos de tiempo y divida por n-1 donde n es el número total de puntos utilizados en el cálculo. Si tiene un modelo con estructura de series de tiempo (p. Ej., Tendencias, componente estacional, estructura de dependencia de AR), este cálculo podría ser una estimación independiente e imparcial de la varianza del término de error en el modelo.

Michael R. Chernick
fuente
1
3nn3n2nn13n1