¿Ridge y LASSO tienen una estructura de covarianza?

11

Después de leer el Capítulo 3 en los Elementos del aprendizaje estadístico (Hastie, Tibshrani y Friedman), me preguntaba si era posible implementar los famosos métodos de contracción citados en el título de esta pregunta dada una estructura de covarianza, es decir, minimizar el (quizás más general ) cantidad

(yXβ)TV1(yXβ)+λf(β),   (1)

en lugar del habitual Esto fue motivado principalmente por el hecho de que en mi aplicación particular, tenemos diferentes variaciones para y

(yXβ)(yXβ)+λf(β).            (2)
y(y, a veces, incluso una estructura de covarianza que se puede estimar) y me encantaría incluirlos en la regresión. Lo hice para la regresión de crestas: al menos con mi implementación en Python / C, veo que hay diferencias importantes en las rutas que trazan los coeficientes, lo que también es notable al comparar las curvas de validación cruzada en ambos casos.

Ahora me estaba preparando para tratar de implementar el LASSO a través de la regresión de ángulo mínimo, pero para hacerlo tengo que demostrar primero que todas sus propiedades agradables siguen siendo válidas al minimizar lugar de ( 2 ) . Hasta ahora, no he visto ningún trabajo que realmente haga todo esto, pero hace algún tiempo también leí una cita que decía algo así como " aquellos que no conocen las estadísticas están condenados a redescubrirlo " (¿quizás por Brad Efron? ), por eso pregunto aquí primero (dado que soy relativamente nuevo en la literatura estadística): ¿Ya se ha hecho esto en algún lugar para estos modelos? ¿Se implementa en R de alguna manera? (incluida la solución e implementación de la cresta minimizando ( 1 )(1)(2)(1)en lugar de , ¿qué es lo que se implementa en el código lm.ridge en R)?(2)

¡Gracias de antemano por sus respuestas!

Néstor
fuente
La respuesta anterior también se informa con más detalles en es.wikipedia.org/wiki/Generalized_least_squares La solución se puede implementar utilizando un enfoque de Mínimo cuadrado generalizado factible (FGLS)
Nicola Jean

Respuestas:

13

V1=LTL

(yXβ)TV1(yXβ)=(LyLXβ)T(LyLXβ)
LyLX
NRH
fuente