Comparación de series de series temporales

Tengo tres conjuntos de datos de series temporales que estoy buscando comparar. Se han tomado en 3 períodos separados de aproximadamente 12 días. Son los recuentos de cabezas promedio, máximo y mínimo tomados en una biblioteca universitaria durante las semanas finales. Tuve que hacer la media, max y min porque los recuentos de horas por hora no eran continuos (ver brechas de datos regulares en una serie de tiempo ).

Ahora el conjunto de datos se ve así. Hay un punto de datos (promedio, máximo o mínimo) por noche, durante 12 noches. Hay 3 semestres para los que se tomaron los datos, solo en los períodos de 12 días de preocupación. Entonces, por ejemplo, la primavera de 2010, el otoño de 2010 y mayo de 2011 tienen un conjunto de 12 puntos. Aquí hay un gráfico de ejemplo:

ingrese la descripción de la imagen aquí

He superpuesto los semestres porque quiero ver cómo cambian los patrones de semestre a semestre. Sin embargo, como me han dicho en el hilo vinculado , no es una buena idea darle una palmada a los semestres, ya que no hay datos en el medio.

La pregunta es entonces: ¿Qué técnica matemática puedo usar para comparar el patrón de asistencia para cada semestre? ¿Hay algo especial en las series temporales que deba hacer, o simplemente puedo tomar las diferencias porcentuales? Mi objetivo es decir que el uso de la biblioteca en estos días está aumentando o disminuyendo; No estoy seguro de qué técnica (s) debo usar para mostrarlo.

time-series multiple-comparisons trend induvidyul
fuente

Respuestas:

ANOVA de efectos fijos (o su equivalente de regresión lineal) proporciona una poderosa familia de métodos para analizar estos datos. Para ilustrar, aquí hay un conjunto de datos consistente con las gráficas de HC promedio por noche (una gráfica por color):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234

ANOVA de countcontra dayy colorproduce esta tabla:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206

El modelvalor p de 0.0000 muestra que el ajuste es altamente significativo. El dayvalor p de 0.0000 también es muy significativo: puede detectar cambios diarios. Sin embargo, el colorvalor p (semestre) de 0.2001 no debe considerarse significativo: no puede detectar una diferencia sistemática entre los tres semestres, incluso después de controlar la variación diaria.

La prueba HSD de Tukey ("diferencia significativa honesta") identifica los siguientes cambios significativos (entre otros) en las medias del día a día (independientemente del semestre) en el nivel 0.05:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

Esto confirma lo que el ojo puede ver en los gráficos.

Debido a que los gráficos saltan bastante, no hay forma de detectar las correlaciones diarias (correlación en serie), que es el punto central del análisis de series de tiempo. En otras palabras, no se moleste con las técnicas de series de tiempo: no hay suficientes datos aquí para que puedan proporcionar una mayor comprensión.

Uno siempre debe preguntarse cuánto creer los resultados de cualquier análisis estadístico. Varios diagnósticos de heteroscedasticidad (como la prueba de Breusch-Pagan ) no muestran nada desfavorable. Los residuos no se ven muy normales, se agrupan en algunos grupos, por lo que todos los valores p deben tomarse con un grano de sal. Sin embargo, parecen proporcionar una guía razonable y ayudan a cuantificar el sentido de los datos que podemos obtener al mirar los gráficos.

Puede realizar un análisis paralelo en los mínimos diarios o en los máximos diarios. Asegúrese de comenzar con un diagrama similar como guía y de verificar el resultado estadístico.

whuber
fuente

+1, para la demostración de técnicas simples pero potentes. Sin embargo, tengo curiosidad por saber cómo logró extraer los valores del gráfico. ¿Algún software o un castigo por mal comportamiento del estudiante? :)

mpiktas

@mp Digitalicé puntos en la parte superior de una captura de pantalla del gráfico, extraje sus coordenadas con el software SIG, transformé las coordenadas con una hoja de cálculo y luego las importé en un paquete de estadísticas. Esto toma sólo unos minutos. Este método puede ser útil cuando los únicos datos que tiene son en forma de gráfico o mapa.

whuber

@whuber Eso es genial! No estaba al tanto de esto.

suncoolsu

@whuber Me pregunto cuál es el efecto de tener 3 series de 12 lecturas autocorrelacionadas en comparación con 36 observaciones independientes. Creo que realmente no tenemos 35 grados de libertad para parcelar. Las probabilidades sobre las que reflexiona se basan en la relación entre una variable chi-cuadrado no central y una variable chi-cuadrado central. ¿Hay algo que me falta aquí? Buen trabajo para extraer los números de la trama. ¿Hay algún programa en particular al que pueda hacer referencia para ayudarnos a este respecto?

IrishStat

x

$x$

y

$y$

V a r (x) = V a r (y) = σ^{2}

$Var(x)=Var(y)=\sigma^2$

σ

$\sigma$

x - y = 0

$x-y=0$

V a r (x - y) = 2 σ^{2}

$Var(x-y)=2\sigma^2$

ρ

$\rho$

x

$x$

y

$y$

V a r (x - y) = 2 (1 - ρ) σ^{2}

$Var(x-y)=2(1-\rho)\sigma^2$

ρ > 0

$\rho \gt 0$

Sarah, toma tus 36 números (12 valores por ciclo; 3 ciclos) y construye un modelo de regresión con 11 indicadores que reflejen el posible efecto de la semana del semestre y luego identifica cualquier Serie de Intervención necesaria (Pulsos, Cambios de Nivel) necesarios para representar el la media de los residuos es 0.0 en todas partes o al menos no es estadísticamente significativamente diferente de 0.0. Por ejemplo, si identifica un cambio de nivel en el período 13, esto podría sugerir una diferencia estadísticamente significativa entre la media del primer semestre, es decir, los primeros 12 valores) frente a la media de los últimos dos semestres (últimos 24 valores). Es posible que pueda hacer inferencia o probar la hipótesis de ninguna semana del efecto del semestre. Un buen paquete de series de tiempo podría serle útil a este respecto. Si no es así, es posible que necesite encontrar a alguien que brinde ayuda en este campo analítico.

IrishStat
fuente

Esto suena como una descripción de ANOVA de dos vías (días por ciclos) seguido de pruebas planificadas de 11 pares de días. Es probable que el software de estadísticas antiguo sea más flexible y potente de usar que el software especializado de series temporales; Ciertamente será más fácil. Por cierto, los índices son días (dentro del período del examen), no semana del semestre.

whuber

¿Puedo usar también el ANOVA para comparar máximos y mínimos por día? ¿O esto solo se aplica a los medios?

induvidyul

@Sarah Podría ser aplicable a los mínimos y máximos. Sin embargo, esas estadísticas tienden a ser mucho más variables que las medias, por lo que es menos probable que pueda detectar cambios en ellas con el tiempo o entre semestres. Su gráfico deja en claro que las medias difieren significativamente. Si puede, haga el ANOVA de tres vías incorporando la hora del día y utilizando los recuentos horarios originales en lugar de sus medios diarios.

whuber

@whuber: Me han dicho que unir los datos por hora no se puede utilizar, ya que solo se han registrado de 12 a.m. a 6 a.m. Vea mi pregunta anterior Brechas de datos regulares en una serie de tiempo .

induvidyul

@Sarah Estoy hablando de algo diferente: modelar la dependencia en términos de tres factores: período (3 de ellos), día en el período (12 de ellos) y hora del día (6 de ellos). Incluso podría tener en cuenta las correlaciones entre las horas, pero eso podría no ser necesario para sus propósitos. De todos modos, estoy no abogando por la visualización de cada período como una serie interrumpida de 12 * 24 cargos: hay demasiados datos que faltan.

whuber