¿Cómo completar los datos faltantes en series de tiempo?

16

Tengo un gran conjunto de datos de contaminación que se han registrado cada 10 minutos durante el transcurso de 2 años, sin embargo, hay una serie de lagunas en los datos (incluidos algunos que van durante algunas semanas a la vez).

Los datos parecen ser bastante estacionales y hay una gran variación durante el día en comparación con la noche en la que los valores no tienen mucha variación y los puntos de datos son más bajos.

He considerado ajustar un modelo de loess a los subconjuntos de día y noche por separado (ya que existe una diferencia obvia entre ellos) y luego predecir los valores de los datos faltantes y completar estos puntos.

Me preguntaba si esta es una forma adecuada de abordar este problema, y también si es necesario agregar una variación local en los puntos predichos.

time-series missing-data data-imputation Jamesm131
fuente

21

La respuesta dependerá del diseño de su estudio (p. Ej., Series temporales transversales? Series temporales de cohortes, series temporales de cohortes seriales?). Honaker y King han desarrollado un enfoque que es útil para series temporales transversales (posiblemente útil para series temporales de cohortes en serie, dependiendo de sus suposiciones), incluido el paquete R Amelia II para la introducción de dichos datos. Mientras tanto, Spratt & Co. han descrito un enfoque diferente que se puede usar en algunos diseños de series temporales de cohortes, pero es escaso en las implementaciones de software.

Un diseño de series de tiempo de corte transversal (también conocido como diseño de estudio de panel) es aquel en el que una (s) población (es) se muestrea (s) repetidamente (por ejemplo, cada año), utilizando el mismo protocolo de estudio (por ejemplo, las mismas variables, instrumentos, etc. ) Si la estrategia de muestreo es representativa, este tipo de datos produce una imagen anual (una medición por participante o sujeto) de las distribuciones de esas variables para cada población en el estudio.

Un diseño de series de tiempo de cohortes (también conocido como diseño de estudio de cohortes repetidas, diseño de estudio longitudinal, también llamado a veces diseño de estudio de panel) es uno en el que las unidades individuales de análisis se muestrean una vez y se siguen durante un largo período de tiempo. Los individuos pueden ser muestreados de manera representativa de una o más poblaciones. Sin embargo, una muestra representativa de series de tiempo de cohorte se convertirá en un representante cada vez más pobre de la población objetivo (al menos en poblaciones humanas) a medida que pasa el tiempo, debido a que las personas nacen o envejecen en la población objetivo, y mueren o envejecen fuera de ella, a lo largo de con inmigración y emigración.

Un diseño de series de tiempo de cohortes en serie (también conocido como cohortes repetidas, múltiples y múltiples, o diseño de estudio de panel) es uno en el que una (s) población (es) se muestrea (p. Ej., Cada año), utilizando el mismo protocolo de estudio ( por ejemplo, las mismas variables, instrumentos, etc.), que mide unidades individuales de análisis dentro de una población en dos puntos de tiempo durante el período (por ejemplo, durante el año) para crear medidas de tasa de cambio. Si la estrategia de muestreo es representativa, este tipo de datos produce una imagen anual de las tasas de cambio en esas variables para cada población en el estudio.

Referencias
Honaker, J. y King, G. (2010). Qué hacer con los valores faltantes en los datos de sección transversal de series de tiempo . American Journal of Political Science , 54 (2): 561–581.

Spratt, M., Carpenter, J., Sterne, JAC, Carlin, JB, Heron, J., Henderson, J. y Tilling, K. (2010). Estrategias para la imputación múltiple en estudios longitudinales . American Journal of Epidemiology , 172 (4): 478–4876.

Alexis
fuente

Gracias por su respuesta. Me preguntaba si podría definir los diferentes tipos de series de tiempo (cohorte, transversal, etc.) ya que soy relativamente nuevo en este tipo de estudio y no he encontrado estos términos antes.

Jamesm131

@ Jamesm131 Vea mi respuesta editada.

Alexis

7

puedes usar el paquete imputeTS en R. Creo que los datos en los que está trabajando son series de tiempo univariadas. El paquete imputeTS se especializa en la imputación de series de tiempo (univariantes). Ofrece varias implementaciones de algoritmos de imputación diferentes. Más allá de los algoritmos de imputación, el paquete también proporciona funciones de trazado e impresión de estadísticas de datos faltantes. Bueno, le recomiendo que busque en los Modelos de espacio de estado para valores perdidos . Este paquete debería ayudarlo con su análisis.

GD_N
fuente

¿Cómo completar los datos faltantes en series de tiempo?

Respuestas: