¿Qué estadísticas se conservan bajo agregación?

12

Si tenemos una serie de tiempo larga y de alta resolución, con mucho ruido, a menudo tiene sentido agregar los datos a una resolución más baja (digamos, valores diarios a mensuales) para obtener una mejor comprensión de lo que está sucediendo, eliminando efectivamente algunos de el ruido.

He visto al menos un artículo que luego aplica algunas estadísticas a los datos agregados, incluido un para una regresión lineal en una variable separada. ¿Es eso válido? Pensé que el proceso de promedio modificaría el resultado un poco, debido a la reducción de ruido. $r^2$

En general, ¿algunas estadísticas pueden aplicarse a datos de series de tiempo agregadas, y otras no? ¿De ser asi, cuales? ¿Las que son combinaciones lineales, tal vez?

time-series aggregation nada101
fuente

Relacionado, ver la falacia ecológica .

Andy W

1

con respecto al comentario de @cbeleites, creo que hay una respuesta teórica aquí: una expansión de su sugerencia de que se conservan las combinaciones lineales. Sin embargo, en términos de aplicación práctica, es muy difícil llegar a una conclusión general sobre la validez de un enfoque, y necesitaría un ejemplo específico.

Jonathan

6

Creo que la pregunta como en el titular es demasiado amplia para ser respondida de una manera útil, más aún, ya que probablemente dependerá tanto del método de agregación como de la estadística en cuestión.

Esto incluso se aplicará a la "media": ¿intenta preservar la forma y la intensidad de la señal (por ejemplo, filtros Savitzky-Golay), o intenta preservar el área bajo la señal (por ejemplo, loess)?
Las estadísticas relacionadas con el ruido obviamente se ven afectadas: ese suele ser el propósito de la agregación.

He visto al menos un artículo que luego aplica algunas estadísticas a los datos agregados [...] ¿Es eso válido? Pensé que el proceso de promedio modificaría el resultado un poco, debido a la reducción de ruido.

Esta modificación es probablemente el propósito de la agregación.

En general, se le permite hacer muchas cosas a sus datos, pero necesita

diga lo que está haciendo (y preferiblemente también por qué lo hace)
mostrar la calidad del modelo resultante (prueba con datos independientes)

Lo que es una agregación válida también dependerá de su aplicación.
Por ejemplo: estoy trabajando con datos espectroscópicos. Es muy común agregar espectros individuales en espectros promedio: el proceso de medición significa ciertos límites a la calidad de los espectros que puedo obtener "de una sola vez". Sin embargo, para muchas aplicaciones es perfectamente válido especificar un procedimiento de adquisición que diga que siempre se deben tomar y promediar mediciones repetidas. Por otro lado, si la aplicación es analítica en tiempo real / en línea o en línea , como FIA (análisis de inyección de flujo), esto implica restricciones en los posibles esquemas de agregación. $n$

cbeleites descontentos con SX
fuente

5

En una configuración de regresión, puede probar si la agregación simple es la opción correcta. Suponga que tiene datos mensuales y datos diarios (con los días fijos en un mes). Suponga que está interesado en una regresión: $Y_t$ $X_\tau$ $m$

Y_{t} = α + β {\bar{X}}_{t} + u_{t}, (1)

$Y_t=\alpha+\beta \bar X_t +u_t, (1)$

donde

{\bar{X}}_{t} = \frac{1}{m} \sum_{h = 0}^{m - 1} X_{t m - h} .

$\bar X_t=\frac{1}{m}\sum_{h=0}^{m-1}X_{tm-h}.$

Aquí asumimos que para cada mes las observaciones diarias son . En este caso asumimos que cada día tiene el mismo peso, lo que claramente es una restricción. Entonces podemos suponer que el modelo más general es válido: $t$ $X_{30(t-1)+1},...,X_{30t}$

Y_{t} = α + β {\bar{X}}_{t}^{(w)} + u_{t}, (2)

$Y_t=\alpha+\beta \bar X_{t}^{(w)} +u_t,(2)$

con

X_{t}^{(w)} = \sum_{h = 1}^{m - 1} w_{h} X_{t m - h} .

$X_t^{(w)}=\sum_{h=1}^{m-1}w_hX_{tm-h}.$

Hay muchos artículos que exploran diferentes opciones posibles de . Por lo general, se supone que , para alguna función que depende de los parámetros . Este tipo de modelo de regresión se denomina regresión MIDAS (Muestreo de datos mixtos). $w_h$ $w_h=g(h,\alpha)$ $g$ $\alpha$

El modelo (2) anida el modelo (1) para que sea posible probar la hipótesis de que . En este artículo se propone una prueba de este tipo (soy uno de los autores, perdón por el complemento descarado, también escribí un paquete R midasr para estimar y probar las regresiones MIDAS donde se implementa esta prueba). $w_h=\frac{1}{m}$

En una configuración de no regresión, hay resultados que muestran que la agregación puede cambiar las propiedades de las series de tiempo. Por ejemplo, si agrega procesos AR (1) que tienen memoria a corto plazo (la correlación entre dos observaciones de la serie temporal desaparece rápidamente cuando aumenta la distancia entre ellas), puede obtener un proceso con memoria a largo plazo.

En resumen, la respuesta es que la validez de la aplicación de estadísticas sobre datos agregados es una cuestión estadística. Dependiendo del modelo, puede construir una hipótesis sobre si es una aplicación válida o no.

mpiktas
fuente

¿Qué estadísticas se conservan bajo agregación?

Respuestas: