¿Lazar el orden de un retraso?

9

Supongamos que tengo datos longitudinales de la forma (Tengo múltiples observaciones, esta es solo la forma de una sola). Estoy interesado en restricciones en . Una sin restricciones es equivalente a tomar Y_j = \ alpha_j + \ sum _ {\ ell = 1} ^ {j - 1} \ phi _ {\ ell j} Y_ {j- \ ell} + \ varepsilon_j con \ varepsilon_j \ sim N (0, \ sigma_j) .Σ Σ Y j = α j + j - 1 = 1 ϕ j Y j - + ε j ε jN ( 0 , σ j )Y=(Y1,,YJ)N(μ,Σ)ΣΣ

Yj=αj+=1j1ϕjYj+εj
εjN(0,σj)

Esto normalmente no se hace ya que requiere estimar los parámetros de covarianza O(J2) . Un modelo es "lag- k " si tomamos

Yj=αj+=1kϕjYj-+εj,
es decir, solo usamos lo anterior k términos para predecir Yj del historial.

Lo que realmente me gustaría hacer es utilizar algún tipo de idea de contracción para poner a cero algunos de los ϕj , como el LASSO. Pero la cosa es, también me gustaría el método que utilizo para preferir modelos que son lag- k para algunos k ; Me gustaría penalizar los retrasos de orden superior más que los retrasos de orden inferior. Creo que esto es algo que nos gustaría hacer especialmente dado que los predictores están altamente correlacionados.

Un problema adicional es que si (digamos) ϕ35 se reduce a 0 0 , también me gustaría si ϕ36 se reduce a 0 0 , es decir, se usa el mismo retraso en todas las distribuciones condicionales.

Podría especular sobre esto, pero no quiero reinventar la rueda. ¿Existe alguna técnica LASSO diseñada para resolver este tipo de problema? ¿Es mejor que haga algo completamente diferente, como la inclusión gradual de órdenes de retraso? Dado que el espacio de mi modelo es pequeño, ¿podría usar una penalización L0 0 en este problema, supongo?

chico
fuente

Respuestas:

2

Puede hacer la validación cruzada repetidamente desde k = 0 hasta el máximo, y trazar el rendimiento contra k Dado que el modelo se está probando con datos que no ha visto antes, no hay garantía de que los modelos complejos funcionen mejor y, de hecho, debería ver una degradación en el rendimiento si el modelo se vuelve demasiado complejo debido al sobreajuste. Personalmente, creo que esto es más seguro y más fácil de justificar que tener un factor de penalización arbitrario, pero su millaje puede variar.

Tampoco entiendo cómo ordenó Lasso responder la pregunta. Parece demasiado restrictivo, está forzando completamente el ordenamiento de los coeficientes. Mientras que la pregunta original puede terminar para algunos datos que tienen una solución donde no está disminuyendo estrictamente con l.ϕlj

Nir Friedman
fuente
Para agregar LaTeX a su pregunta, encierre la expresión entre signos de dólar ($).
Patrick Coulombe
1
Yj-2YjYj-1
(2) Generalmente, no usaría esta estrategia de CV al menos parcialmente porque es demasiado dogmática. Puedo obtener mejores predicciones reduciendo juiciosamente un retraso, en lugar de tirarlo por completo.
chico
Nir, un comentario útil sobre el LASSO ordenado. Edité mi respuesta para que sea un poco más completa. ¡Gracias!
Sean Easter
Gracias Sean Guy, no creo que sea demasiado dogmático. No estás estableciendo ak en piedra, sino que estás permitiendo que varíe. La k que elija será al inicio del sobreajuste. También estoy totalmente en desacuerdo con su declaración de supuesto conocimiento a priori. Algo que parece razonable y saber que es completamente diferente. Debo admitir que parece haber una resistencia en las estadísticas tradicionales a la validación cruzada que nunca he entendido. Elegiría la eficiencia predictiva en los datos fuera de la muestra en lugar de agregar suposiciones cualquier día.
Nir Friedman
2

β1 ...jEl |β1El |El |β2El |...El |βjEl |

Esto logra el segundo objetivo de reducir a cero los coeficientes para los retrasos de orden superior, pero es más restrictivo que la única restricción de preferir un modelo de retraso inferior. Y como otros señalan, esta es una fuerte restricción que puede ser muy difícil de justificar.

Habiendo prescindido de las advertencias, el documento presenta los resultados del método en datos de series de tiempo reales y simulados, y detalla algoritmos para encontrar los coeficientes. La conclusión menciona un paquete R, pero el documento es bastante reciente y una búsqueda en CRAN de "LASSO ordenado" aparece vacía, por lo que sospecho que el paquete aún está en desarrollo.

El documento también ofrece un enfoque generalizado en el que dos parámetros de regularización "fomentan la casi monotonía". (Ver pág. 6.) En otras palabras, uno debería ser capaz de ajustar los parámetros para permitir un orden relajado. Lamentablemente, no se proporcionan ejemplos ni comparaciones del método relajado. Pero, los autores escriben que implementar este cambio es una simple cuestión de reemplazar un algoritmo con otro, por lo que se espera que sea parte del próximo paquete R.

Sean Easter
fuente
Gracias, es realmente interesante que esta sea una idea reciente. De hecho, se me ocurrió la misma idea al discutir el problema con un amigo cuando le hice la pregunta hace 9 meses, ¡pero nunca la investigé en profundidad! Simplemente asumí que la idea no era esa novela, o que alguien más ya había escrito un artículo al respecto.
chico
Bastante bienvenido! Me sorprendió que fuera tan reciente.
Sean Easter
1

La penalización LASSO anidada ( pdf ) podría emplearse, pero no hay paquetes R para ello.

usuario53874
fuente
1
En la actualidad, esto es más un comentario que una respuesta. ¿Puede expandirlo un poco, tal vez discutiendo la penalización LASSO anidada, etc.?
gung - Restablecer Monica
0

Sé que lo escribiste como premisa, pero no usaría el LASSO ordenado sin estar absolutamente seguro de que esto es lo que se necesita, porque los supuestos del LASSO ordenado no son directamente apropiados para la predicción de series de tiempo. Como contraejemplo, considere el caso en el que tiene un tiempo de retraso de, digamos, diez pasos de tiempo entre la medición y el objetivo. Obviamente, las restricciones LASSO ordenadas no pueden manejar tales efectos sin atribuir tonterías a los primeros nueve parámetros.

λλλ=0 0

λ

davidhigh
fuente
Obviamente no me interesarían las restricciones en el orden de los coeficientes si no tuviera razones a priori fuertes para creerlo. Para los modelos que sospecho que son probables, heurísticamente el LASSO ordenado debería ser más eficiente. Tener un coeficiente de retraso 10 con los otros 9 siendo 0 no tiene sentido en mi entorno sustantivo . Este es un problema en el que mis colegas han trabajado (contracción ordenada basada en los retrasos), pero utilizaron ideas bayesuanas y, por lo tanto, no consideraron un LASSO (no bayesiano).
chico
Ok, parece que sabes lo que haces. Pero recuerde que el LASSO ordenado está más fuertemente limitado que su declaración "una vez cero - siempre cero". Alternativamente, también podría considerar un modelo en el que los parámetros ingresen de forma multiplicativa. Entonces, la importancia relativa puede crecer o disminuir hasta que un coeficiente se convierta en cero.
davidhigh