Supongamos que tengo datos longitudinales de la forma (Tengo múltiples observaciones, esta es solo la forma de una sola). Estoy interesado en restricciones en . Una sin restricciones es equivalente a tomar Y_j = \ alpha_j + \ sum _ {\ ell = 1} ^ {j - 1} \ phi _ {\ ell j} Y_ {j- \ ell} + \ varepsilon_j con \ varepsilon_j \ sim N (0, \ sigma_j) .Σ Σ Y j = α j + j - 1 ∑ ℓ = 1 ϕ ℓ j Y j - ℓ + ε j ε j ∼ N ( 0 , σ j )
Esto normalmente no se hace ya que requiere estimar los parámetros de covarianza . Un modelo es "lag- " si tomamos
Lo que realmente me gustaría hacer es utilizar algún tipo de idea de contracción para poner a cero algunos de los , como el LASSO. Pero la cosa es, también me gustaría el método que utilizo para preferir modelos que son lag- para algunos ; Me gustaría penalizar los retrasos de orden superior más que los retrasos de orden inferior. Creo que esto es algo que nos gustaría hacer especialmente dado que los predictores están altamente correlacionados.
Un problema adicional es que si (digamos) se reduce a , también me gustaría si se reduce a , es decir, se usa el mismo retraso en todas las distribuciones condicionales.
Podría especular sobre esto, pero no quiero reinventar la rueda. ¿Existe alguna técnica LASSO diseñada para resolver este tipo de problema? ¿Es mejor que haga algo completamente diferente, como la inclusión gradual de órdenes de retraso? Dado que el espacio de mi modelo es pequeño, ¿podría usar una penalización en este problema, supongo?
Esto logra el segundo objetivo de reducir a cero los coeficientes para los retrasos de orden superior, pero es más restrictivo que la única restricción de preferir un modelo de retraso inferior. Y como otros señalan, esta es una fuerte restricción que puede ser muy difícil de justificar.
Habiendo prescindido de las advertencias, el documento presenta los resultados del método en datos de series de tiempo reales y simulados, y detalla algoritmos para encontrar los coeficientes. La conclusión menciona un paquete R, pero el documento es bastante reciente y una búsqueda en CRAN de "LASSO ordenado" aparece vacía, por lo que sospecho que el paquete aún está en desarrollo.
El documento también ofrece un enfoque generalizado en el que dos parámetros de regularización "fomentan la casi monotonía". (Ver pág. 6.) En otras palabras, uno debería ser capaz de ajustar los parámetros para permitir un orden relajado. Lamentablemente, no se proporcionan ejemplos ni comparaciones del método relajado. Pero, los autores escriben que implementar este cambio es una simple cuestión de reemplazar un algoritmo con otro, por lo que se espera que sea parte del próximo paquete R.
fuente
La penalización LASSO anidada ( pdf ) podría emplearse, pero no hay paquetes R para ello.
fuente
Sé que lo escribiste como premisa, pero no usaría el LASSO ordenado sin estar absolutamente seguro de que esto es lo que se necesita, porque los supuestos del LASSO ordenado no son directamente apropiados para la predicción de series de tiempo. Como contraejemplo, considere el caso en el que tiene un tiempo de retraso de, digamos, diez pasos de tiempo entre la medición y el objetivo. Obviamente, las restricciones LASSO ordenadas no pueden manejar tales efectos sin atribuir tonterías a los primeros nueve parámetros.
fuente