En el campo de la economía (creo) tenemos ARIMA y GARCH para series de tiempo regularmente espaciadas y Poisson, Hawkes para procesos de puntos de modelado, entonces, ¿qué hay de los intentos de modelar series de tiempo espaciadas irregularmente (de manera desigual)? Existen (al menos) prácticas comunes ?
(Si tiene algún conocimiento sobre este tema, también puede ampliar el artículo wiki correspondiente ).
Edición (sobre valores faltantes y series temporales espaciadas irregulares):
Responda al comentario de @Lucas Reis. Si los espacios entre las mediciones o las variables de realización están espaciados debido (por ejemplo) al proceso de Poisson, no hay mucho espacio para este tipo de regularización, pero existe un procedimiento simple: t(i)
es el índice de tiempo i-ésimo de la variable x (tiempo i-ésimo de realización x), entonces definir brechas entre los tiempos de mediciones como g(i)=t(i)-t(i-1)
, entonces discretizar g(i)
usando constante c
, dg(i)=floor(g(i)/c
y crear nuevas series de tiempo con el número de valores en blanco entre las observaciones viejos de la serie de tiempo original i
y i+1
igual a la DG (i), pero el problema es que este El procedimiento puede producir fácilmente series de tiempo con un número de datos faltantes mucho mayor que el número de observaciones, por lo que la estimación razonable de los valores de las observaciones faltantes podría ser imposible y demasiado grande.c
eliminar "estructura del tiempo / dependencia del tiempo, etc." del problema analizado (se da un caso extremo al tomar c>=max(floor(g(i)/c))
simplemente el colapso de series temporales espaciadas irregularmente en espaciadas regularmente
Edición2 (solo por diversión): Contabilidad de imágenes para valores perdidos en series de tiempo espaciadas irregularmente o incluso en caso de proceso puntual.
t(i)
- tiempo,x[t(i)],x[t(i+1)],x[t(i+2)]...
yt(j+1)-t(j)
no es constante. Los datos se recopilan en una mansión distribuida o asincrónica.Respuestas:
Si las observaciones de un proceso estocástico están espaciadas irregularmente, la forma más natural de modelar las observaciones es como observaciones de tiempo discreto de un proceso de tiempo continuo.
Lo que generalmente se necesita de una especificación de modelo es la distribución conjunta de las observaciones observadas a veces , y esto puede, por ejemplo, dividirse en distribuciones condicionales de dado . Si el proceso es un proceso de Markov, esta distribución condicional depende de no de y depende de y . Si el proceso es homogéneo en el tiempo, la dependencia de los puntos temporales es solo a través de su diferencia .X1, ... , Xnorte t1<t2<…<tn Xi Xi−1,…,X1 Xi−1 − Xi−2,…,X1 − ti ti−1 ti−ti−1
De esto vemos que si tenemos observaciones equidistantes (con , por ejemplo) de un proceso de Markov homogéneo en el tiempo, solo necesitamos especificar una única distribución de probabilidad condicional, , para especificar un modelo. De lo contrario, debemos especificar una colección completa de distribuciones de probabilidad condicional indexadas por las diferencias de tiempo de las observaciones para especificar un modelo. Este último es, de hecho, hace más fácilmente mediante la especificación de una familia de tiempo continuo distribuciones de probabilidad condicional.ti−ti−1=1 P1 Pti−ti−1 Pt
Una forma común de obtener una especificación de modelo de tiempo continuo es a través de una ecuación diferencial estocástica (SDE) Un buen lugar para comenzar a hacer estadísticas para los modelos SDE es la simulación e inferencia para ecuaciones diferenciales estocásticas de Stefano Iacus. Puede ser que se describan muchos métodos y resultados para observaciones equidistantes, pero esto generalmente es conveniente para la presentación y no es esencial para la aplicación. Un obstáculo principal es que la especificación SDE rara vez permite una probabilidad explícita cuando tiene observaciones discretas, pero existen alternativas de ecuaciones de estimación bien desarrolladas.
Si desea ir más allá de los procesos de Markov, los modelos de volatilidad estocástica son como (G) los modelos ARCH intentan modelar una varianza heterogénea (volatilidad). También se pueden considerar ecuaciones de retardo como que son análogos de tiempo continuo de AR . ( p )
Creo que es justo decir que la práctica común cuando se trata de observaciones en puntos de tiempo irregulares es construir un modelo estocástico de tiempo continuo.
fuente
Para series temporales espaciadas irregulares, es fácil construir un filtro Kalman .
Hay un documento sobre cómo transferir ARIMA al formulario de espacio de estado aquí.
Y un artículo que compara a Kalman con GARCH aquí(1)
Capacidad de pronóstico del método de filtro GARCH vs Kalman: evidencia de la beta diaria que varía en el tiempo del Reino Unido.
Journal of Forecasting , 27, (8), 670-689. (doi: 10.1002 / for.1096).
fuente
Cuando estaba buscando una manera de medir la cantidad de fluctuación en los datos muestreados de forma irregular, me encontré con estos dos documentos sobre el suavizado exponencial de datos irregulares de Cipra [ 1 , 2 ]. Estos se basan aún más en las técnicas de suavizado de Brown, Winters y Holt (consulte la entrada de Wikipedia para el suavizado exponencial ), y en otro método de Wright (consulte el documento para obtener referencias). Estos métodos no suponen mucho sobre el proceso subyacente y también funcionan para datos que muestran fluctuaciones estacionales.
No sé si algo de eso cuenta como un "estándar de oro". Para mi propio propósito, decidí usar el suavizado exponencial de dos vías (simple) siguiendo el método de Brown. Se me ocurrió la idea de un alisamiento bidireccional al leer el resumen en un trabajo de estudiante (que no puedo encontrar ahora).
fuente
El análisis de series temporales muestreadas irregularmente puede ser complicado, ya que no hay muchas herramientas disponibles. A veces la práctica es aplicar algoritmos regulares y esperar lo mejor. Este no es necesariamente el mejor enfoque. Otras veces las personas intentan interpolar los datos en las brechas. Incluso he visto casos en los que las brechas se llenan con números aleatorios que tienen la misma distribución que los datos conocidos. Un algoritmo específico para series muestreadas irregularmente es el Periodograma Lomb-Scargle que proporciona un periodograma (espectro de potencia de pensamiento) para series temporales muestreadas de manera desigual. Lomb-Scargle no requiere ningún "acondicionamiento de huecos".
fuente
Si desea un modelo de dominio de tiempo "local", en lugar de estimar funciones de correlación o espectros de potencia), digamos para detectar y caracterizar pulsos transitorios, saltos y similares, entonces el algoritmo de bloqueo bayesiano puede ser útil. Proporciona una representación constante por partes óptima de series de tiempo en cualquier modo de datos y con muestreo arbitrario (desigual) espaciado. Ver
"Estudios en análisis astronómico de series temporales. VI. Representaciones de bloques bayesianos", Scargle, Jeffrey D .; Norris, Jay P .; Jackson, Brad; Chiang, James, Astrophysical Journal, Volumen 764, 167, 26 pp. (2013). http://arxiv.org/abs/1207.5578
fuente
RJMartin, "Señales muestreadas irregularmente: teorías y técnicas para el análisis", tesis doctoral, UCL, 1998, disponible en línea. El Capítulo 4 trata con modelos autorregresivos y desarrolla el tema desde la perspectiva del tiempo continuo, como han dicho otras publicaciones.
fuente
La sección 4.10 de J.Durbin, SJKoopman, Análisis de series de tiempo por métodos del espacio de estado , segunda edición, 2012, se dedica a modelar en caso de observaciones faltantes.
fuente
En el análisis de datos espaciales, los datos se muestrean la mayor parte del tiempo de forma irregular en el espacio. Entonces, una idea sería ver lo que se hace allí e implementar la estimación de variogramas, kriging, etc. para el dominio unidimensional del "tiempo". Los variogramas podrían ser interesantes incluso para datos de series de tiempo regularmente espaciados, ya que tiene diferentes propiedades de la función de autocorrelación, y está definido y es significativo incluso para datos no estacionarios.
Aquí hay un artículo (en español) y aquí otro.
fuente