Regularización para modelos ARIMA

15

Soy consciente del tipo de regularización LASSO, cresta y red elástica en modelos de regresión lineal.

Pregunta:

  1. ¿Se puede aplicar este tipo (o similar) de estimación penalizada al modelado ARIMA (con una parte MA no vacía)?

En la construcción de modelos ARIMA, parece habitual considerar un orden de retraso máximo preseleccionado ( pmax , ) y luego elegir un orden óptimo y q \ leqslant q_ {max} ej. minimizando AIC o AICc. Pero, ¿podría utilizarse la regularización en su lugar?qmaxppmaxqqmax

Mis otras preguntas son:

  1. ¿Podríamos incluir todos los términos hasta ( pmax , qmax ) pero penalizar el tamaño de los coeficientes (potencialmente hasta cero)? ¿Eso tendría sentido?
  2. Si así fuera, ¿se ha implementado en R u otro software? Si no, ¿cuál fue el problema?

Una publicación algo relacionada se puede encontrar aquí .

Richard Hardy
fuente
1
+1 para una muy buena pregunta. Dado que P, Q son valores discretos, puede ser más eficiente hacer una búsqueda de cuadrícula para encontrar el orden óptimo de P, Q?
pronosticador
2
¡Me alegro de que te haya gustado! Sí, una búsqueda de cuadrícula es una de las opciones en el marco al que me refiero como "la habitual". Allí se puede buscar en una cuadrícula de posibles combinaciones de de a . Sin embargo, esto sigue siendo parte del "marco habitual". Como alternativa, estoy interesado en mantener todos los retrasos pero penalizar el tamaño de los coeficientes. ( 0 , 0 ) ( p m a x , q m a x(p,q)(0,0)(pmax,qmax)
Richard Hardy
1
columbia.edu/~sn2294/papers/forecast.pdf Supuestamente LASSO funciona mejor ya que puede omitir algunos retrasos en lugar de poner un máximo. AIC puede hacer lo mismo, pero luego se vuelve computacionalmente costoso.
Cagdas Ozgenc
1
@CagdasOzgenc, hojeé el documento pero no parece estar tratando con la regularización aplicada en los modelos ARIMA (aunque menciona los modelos ARMA en el contexto de los criterios de información). ¿Podría indicar qué parte del documento es relevante para mis preguntas?
Richard Hardy
1
5.3 la tabla contiene modelos ARMAX. Los resultados se aplican a los modelos ARMA.
Cagdas Ozgenc

Respuestas:

9

Respuesta a la pregunta 1.

Chen & Chan "Subconjunto de selección ARMA a través del Lazo adaptativo" (2011) * utilizan una solución alternativa para evitar la estimación computacionalmente exigente de máxima probabilidad de probabilidad. Citando el papel, ellos

proponemos encontrar un modelo ARMA de subconjunto óptimo ajustando una regresión Lasso adaptativa de la serie de tiempo en sus propios retrasos y los de los residuos que se obtienen al ajustar una larga autorregresión a los y t s. <...> [En] condiciones de regularidad leve, el método propuesto logra las propiedades del oráculo, es decir, identifica el modelo ARMA del subconjunto correcto con probabilidad que tiende a uno a medida que el tamaño de la muestra aumenta al infinito, y <...> el los estimadores de los coeficientes distintos de cero son asintóticamente normales con la distribución limitante igual que cuando los coeficientes cero se conocen a priori.ytyt

Opcionalmente, sugieren la estimación de máxima verosimilitud y el diagnóstico del modelo para los modelos ARMA del subconjunto seleccionado.


Wilms y col. "La escasa identificación y estimación de promedios móviles autorregresivos de vectores de alta dimensión" (2017) hacen incluso más de lo que pedí. En lugar de un modelo ARIMA univariante, toman un vector ARMA (VARMA) en altas dimensiones, y usan una penalización para la estimación y la selección del orden de retraso. Presentan el algoritmo de estimación y desarrollan algunos resultados asintóticos.L1

En particular, emplean un procedimiento de dos etapas. Considere un modelo VARMA que necesita estimarse, pero las órdenes de retraso p y q son desconocidas.

yt=l=1pΦlytl+m=1qΘmεtm+εt
pq
  • En la Etapa 1, aproximan el modelo VARMA por un modelo VAR de alto orden y lo estiman usando un estimador jerárquico VAR que coloca una penalización de lazo grupal jerárquico basada en el retraso en los parámetros autorregresivos.
    (El orden de retraso se establece en . Las ecuaciones modelo se estiman conjuntamente y la norma Frobenius de los errores| El | Y - Y | El | F 2 se reduce al mínimo con una penalización-grupo lasso jerárquica en los coeficientes de regresión). Obtienen residuos varepsilon :=y - y para ser utilizados como sustitutos de los verdaderos errores en la Etapa 2.1.5T||yy^||2F
    ε^:=yy^

  • En la Etapa 2, estiman un modelo VARX donde x representa residuos de la etapa 1. Esto es lag, que MINIC un modelo VARMA pero el uso estimado residuos en lugar de errores verdaderos, que permite aplicando el mismo estimador (grupo-lasso jerárquica) de nuevo al igual que en la Etapa 1. ( p y q

    yt=l=1p^Φlytl+m=1q^Θmε^tm+ut,

    p^q^están configurados para ser .)1.5T

El enfoque de Wilms et al. se implementa en el paquete R "bigtime" .


Referencias


* Gracias a @hejseb por el enlace.

Richard Hardy
fuente
2
Este documento de trabajo es muy reciente, publicado en arXiv ayer.
Richard Hardy
¿Hay alguna implementación en python o R?
David Masip
@DavidMasip, vea la publicación actualizada para una implementación de R.
Richard Hardy