Si tenemos una serie de tiempo larga y de alta resolución, con mucho ruido, a menudo tiene sentido agregar los datos a una resolución más baja (digamos, valores diarios a mensuales) para obtener una mejor comprensión de lo que está sucediendo, eliminando efectivamente algunos de el ruido.
He visto al menos un artículo que luego aplica algunas estadísticas a los datos agregados, incluido un para una regresión lineal en una variable separada. ¿Es eso válido? Pensé que el proceso de promedio modificaría el resultado un poco, debido a la reducción de ruido.
En general, ¿algunas estadísticas pueden aplicarse a datos de series de tiempo agregadas, y otras no? ¿De ser asi, cuales? ¿Las que son combinaciones lineales, tal vez?
time-series
aggregation
nada101
fuente
fuente
Respuestas:
Creo que la pregunta como en el titular es demasiado amplia para ser respondida de una manera útil, más aún, ya que probablemente dependerá tanto del método de agregación como de la estadística en cuestión.
Esto incluso se aplicará a la "media": ¿intenta preservar la forma y la intensidad de la señal (por ejemplo, filtros Savitzky-Golay), o intenta preservar el área bajo la señal (por ejemplo, loess)?
Las estadísticas relacionadas con el ruido obviamente se ven afectadas: ese suele ser el propósito de la agregación.
Esta modificación es probablemente el propósito de la agregación.
En general, se le permite hacer muchas cosas a sus datos, pero necesita
Lo que es una agregación válida también dependerá de su aplicación.n
Por ejemplo: estoy trabajando con datos espectroscópicos. Es muy común agregar espectros individuales en espectros promedio: el proceso de medición significa ciertos límites a la calidad de los espectros que puedo obtener "de una sola vez". Sin embargo, para muchas aplicaciones es perfectamente válido especificar un procedimiento de adquisición que diga que siempre se deben tomar y promediar mediciones repetidas. Por otro lado, si la aplicación es analítica en tiempo real / en línea o en línea , como FIA (análisis de inyección de flujo), esto implica restricciones en los posibles esquemas de agregación.
fuente
En una configuración de regresión, puede probar si la agregación simple es la opción correcta. Suponga que tiene datos mensuales y datos diarios (con los días fijos en un mes). Suponga que está interesado en una regresión:Yt Xτ m
donde
Aquí asumimos que para cada mes las observaciones diarias son . En este caso asumimos que cada día tiene el mismo peso, lo que claramente es una restricción. Entonces podemos suponer que el modelo más general es válido:t X30(t−1)+1,...,X30t
con
Hay muchos artículos que exploran diferentes opciones posibles de . Por lo general, se supone que , para alguna función que depende de los parámetros . Este tipo de modelo de regresión se denomina regresión MIDAS (Muestreo de datos mixtos).w h = g ( h , α ) g αwh wh=g(h,α) g α
El modelo (2) anida el modelo (1) para que sea posible probar la hipótesis de que . En este artículo se propone una prueba de este tipo (soy uno de los autores, perdón por el complemento descarado, también escribí un paquete R midasr para estimar y probar las regresiones MIDAS donde se implementa esta prueba).wh=1m
En una configuración de no regresión, hay resultados que muestran que la agregación puede cambiar las propiedades de las series de tiempo. Por ejemplo, si agrega procesos AR (1) que tienen memoria a corto plazo (la correlación entre dos observaciones de la serie temporal desaparece rápidamente cuando aumenta la distancia entre ellas), puede obtener un proceso con memoria a largo plazo.
En resumen, la respuesta es que la validez de la aplicación de estadísticas sobre datos agregados es una cuestión estadística. Dependiendo del modelo, puede construir una hipótesis sobre si es una aplicación válida o no.
fuente