Estoy buscando literatura sobre regresión de cresta negativa .
En resumen, es una generalización de la regresión lineal de crestas usando negativa en la fórmula del estimador:El caso positivo tiene una buena teoría: como una función de pérdida, como una restricción, como un Bayes anterior ... pero me siento perdido con la versión negativa con solo la fórmula anterior. Resulta útil para lo que estoy haciendo, pero no lo interpreto claramente.
¿Conoces algún texto introductorio serio sobre la cresta negativa? ¿Cómo se puede interpretar?
regression
regularization
ridge-regression
Benoit Sanchez
fuente
fuente
Respuestas:
Aquí hay una ilustración geométrica de lo que está sucediendo con la cresta negativa.
Consideraré estimadores de la forma que surge de la función de pérdidaAquí hay una ilustración bastante estándar de lo que sucede en un caso bidimensional con . La lambda cero corresponde a la solución OLS, la lambda infinita reduce la beta estimada a cero:
Consideremos ahora lo que sucede cuando , donde es el valor singular más grande de . Para lambdas negativas muy grandes, es, por supuesto, cercano a cero. Cuando lambda se aproxima a , el término obtiene un valor singular cercano a cero, lo que significa que el inverso tiene un valor singular que va a menos infinito. Este valor singular corresponde al primer componente principal de , por lo que en el límite se obtiene apuntando en la dirección de PC1 pero con un valor absoluto que crece hasta el infinito.λ∈(−∞,−s2max) smax X β^λ −s2max (X⊤X+λI) X β^λ
Lo que es realmente agradable es que uno puede dibujarlo en la misma figura de la misma manera: las betas están dadas por puntos donde los círculos tocan las elipses desde adentro :
Cuando , se aplica una lógica similar, que permite continuar la ruta de cresta en el otro lado del estimador OLS. Ahora los círculos tocan las elipses desde el exterior. En el límite, las betas se acercan a la dirección de PC2 (pero sucede muy lejos de este boceto):λ∈(−s2min,0]
El rango es una especie de brecha energética : los estimadores allí no viven en la misma curva.(−s2max,−s2min)
ACTUALIZACIÓN: En los comentarios, @MartinL explica que para la pérdida no tiene un mínimo, pero tiene un máximo. Y este máximo viene dado por . Es por eso que la misma construcción geométrica con el círculo / elipse tocando sigue funcionando: todavía estamos buscando puntos de gradiente cero. Cuando , la pérdida tiene un mínimo y está dada por , exactamente como en la normalidad caso.λ<−s2max Lλ β^λ −s2min<λ≤0 Lλ β^λ λ>0
Pero cuando , la pérdida no tiene ni máximo ni mínimo; correspondería a un punto de silla de montar. Esto explica la "brecha energética".−s2max<λ<−s2min Lλ β^λ
El surge naturalmente de una regresión de cresta restringida particular, vea El límite del estimador de regresión de cresta "unidad-varianza" cuando . Esto está relacionado con lo que se conoce en la literatura de quimiometría como "regresión continua", vea mi respuesta en el hilo vinculado.λ∈(−∞,−s2max) λ→∞
La puede tratarse exactamente de la misma manera que : la función de pérdida permanece igual y el estimador de cresta proporciona su mínimo.λ∈(−s2min,0] λ>0
fuente