Soy consciente del tipo de regularización LASSO, cresta y red elástica en modelos de regresión lineal.
Pregunta:
- ¿Se puede aplicar este tipo (o similar) de estimación penalizada al modelado ARIMA (con una parte MA no vacía)?
En la construcción de modelos ARIMA, parece habitual considerar un orden de retraso máximo preseleccionado ( , ) y luego elegir un orden óptimo y q \ leqslant q_ {max} ej. minimizando AIC o AICc. Pero, ¿podría utilizarse la regularización en su lugar?
Mis otras preguntas son:
- ¿Podríamos incluir todos los términos hasta ( , ) pero penalizar el tamaño de los coeficientes (potencialmente hasta cero)? ¿Eso tendría sentido?
- Si así fuera, ¿se ha implementado en R u otro software? Si no, ¿cuál fue el problema?
Una publicación algo relacionada se puede encontrar aquí .
time-series
arima
lasso
regularization
ridge-regression
Richard Hardy
fuente
fuente
Respuestas:
Respuesta a la pregunta 1.
Chen & Chan "Subconjunto de selección ARMA a través del Lazo adaptativo" (2011) * utilizan una solución alternativa para evitar la estimación computacionalmente exigente de máxima probabilidad de probabilidad. Citando el papel, ellos
Opcionalmente, sugieren la estimación de máxima verosimilitud y el diagnóstico del modelo para los modelos ARMA del subconjunto seleccionado.
Wilms y col. "La escasa identificación y estimación de promedios móviles autorregresivos de vectores de alta dimensión" (2017) hacen incluso más de lo que pedí. En lugar de un modelo ARIMA univariante, toman un vector ARMA (VARMA) en altas dimensiones, y usan una penalización para la estimación y la selección del orden de retraso. Presentan el algoritmo de estimación y desarrollan algunos resultados asintóticos.L1
En particular, emplean un procedimiento de dos etapas. Considere un modelo VARMA que necesita estimarse, pero las órdenes de retraso p y q son desconocidas.
En la Etapa 1, aproximan el modelo VARMA por un modelo VAR de alto orden y lo estiman usando un estimador jerárquico VAR que coloca una penalización de lazo grupal jerárquico basada en el retraso en los parámetros autorregresivos.⌊1.5T−−√⌋ ||y−y^||F2
ε^:=y−y^
(El orden de retraso se establece en . Las ecuaciones modelo se estiman conjuntamente y la norma Frobenius de los errores| El | Y - Y | El | F 2 se reduce al mínimo con una penalización-grupo lasso jerárquica en los coeficientes de regresión). Obtienen residuos varepsilon :=y - y para ser utilizados como sustitutos de los verdaderos errores en la Etapa 2.
En la Etapa 2, estiman un modelo VARX donde x representa residuos de la etapa 1. Esto es lag, que MINIC un modelo VARMA pero el uso estimado residuos en lugar de errores verdaderos, que permite aplicando el mismo estimador (grupo-lasso jerárquica) de nuevo al igual que en la Etapa 1. ( p y q
El enfoque de Wilms et al. se implementa en el paquete R "bigtime" .
Referencias
* Gracias a @hejseb por el enlace.
fuente