El límite del estimador de regresión de cresta "unidad-varianza" cuando

21

Considere la regresión de cresta con una restricción adicional que requiere que tenga una unidad de suma de cuadrados (equivalente, varianza de unidad); si es necesario, se puede suponer que tiene una unidad de suma de cuadrados: Yy^y

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1.

¿Cuál es el límite de β^λ cuando λ ?


Aquí hay algunas declaraciones que creo que son ciertas:

  1. Cuando λ=0 , hay una solución explícita clara: tome el estimador OLS β^0=(XX)1Xy y normalizarlo para satisfacer la restricción (se puede ver esto agregando un multiplicador de Lagrange y diferenciando):

    β^0=β^0/Xβ^0.
  2. En general, la solución es

    β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.
    No veo una solución de forma cerrada cuando λ>0 . Parece que la solución es equivalente al estimador RR habitual con algunos λ normalizados para satisfacer la restricción, pero no veo una fórmula cerrada para λ .
  3. Cuando λ , el estimador RR habitual

    β^λ=(XX+λI)1Xy
    obviamente converge a cero, pero su dirección β^λ/β^λconverge a la dirección de Xy , también conocido como el primer componente de mínimos cuadrados parciales (PLS).

Las declaraciones (2) y (3) juntas me hacen pensar que quizás β^λ también converge a la \ mathbf X ^ \ top \ mathbf y normalmente normalizada Xy, pero no estoy seguro de si esto es correcto y no he logrado convencerme de ninguna manera.

ameba dice Reinstate Monica
fuente

Respuestas:

17

Una interpretación geométrica

El estimador descrito en la pregunta es el equivalente multiplicador de Lagrange del siguiente problema de optimización:

minimize f(β) subject to g(β)t and h(β)=1 

f(β)=yXβ2g(β)=β2h(β)=Xβ2

que se puede ver, geométricamente, como encontrar el elipsoide más pequeño que toca la intersección de la esfera el elipsoidef(β)=RSS g(β)=th(β)=1


Comparación con la vista de regresión de cresta estándar

En términos de una vista geométrico esto cambia el viejo vista (por regresión ridge estándar) del punto en el que un esferoide (errores) y esfera ( ) táctilβ2=tX β 2 = 1X β = 1 . En una nueva vista donde buscamos el punto donde el esferoide (errores) toca una curva (norma de beta restringida por )Xβ2=1 . La única esfera (azul en la imagen de la izquierda) cambia a una figura de menor dimensión debido a la intersección con la restricción .Xβ=1

En el caso bidimensional, esto es simple de ver.

vista geométrica

Cuando sintonizar el parámetro entonces cambiar la longitud relativa de las esferas azules / rojo o los tamaños relativos de y (En la teoría de los multiplicadores de Lagrange es probable que haya una clara forma de formalmente y describa exactamente que esto significa que para cada como función de , o invertida, es una función monótona. Pero imagino que puede ver intuitivamente que la suma de los residuos al cuadrado solo aumenta cuando disminuimos .)tf(β)g(β) t λ | El | β | El |tλ||β||

La solución para es como argumentó en una línea entre 0 yβλλ=0βLS

La solución para está (de hecho, como comentaste) en las cargas del primer componente principal. Este es el punto donde es el más pequeño para . Es el punto donde el círculo toca la elipse en un solo punto.βλλβ2βX2=1β2=t|Xβ|=1

En esta vista los bordes de la intersección de la esfera esferoides son puntos. En múltiples dimensiones, estas serán curvasβ2=tβX2=1

(Primero imaginé que estas curvas serían elipses, pero son más complicadas. Se podría imaginar que el elipsoide se cruza con la bola como algunos tipo de tronco elipsoide pero con bordes que no son simples elipses)Xβ2=1β2t


En cuanto al límiteλ

Al principio (ediciones anteriores) escribí que habrá algunas limitantes por encima de las cuales todas las soluciones son las mismas (y residen en el punto ). Pero este no es el casoλlimβ

Considere la optimización como un algoritmo LARS o descenso de gradiente. Si para cualquier punto hay una dirección en la que podemos cambiar el modo que el término de penalización aumente menos que el término SSR disminuye, entonces no está en un mínimo .ββ|β|2|yXβ|2

  • En la regresión de cresta normal , tiene una pendiente cero (en todas las direcciones) para en el punto . Entonces, para todos los finitos, la solución no puede ser (ya que se puede hacer un paso infinitesimal para reducir la suma de los residuos al cuadrado sin aumentar la penalización).|β|2β=0λβ=0
  • Para LASSO, esto no es lo mismo ya que: la penalización es (por lo que no es cuadrática con pendiente cero). Debido a eso, LASSO tendrá un valor límite encima del cual todas las soluciones son cero porque el término de penalización (multiplicado por ) aumentará más de lo que disminuye la suma residual de cuadrados.|β|1λlimλ
  • Para la cresta restringida , obtienes lo mismo que la regresión de cresta regular. Si cambia partir de entonces este cambio será perpendicular a ( es perpendicular a la superficie de la elipse ) y se puede cambiar en un paso infinitesimal sin cambiar el término de penalización pero disminuyendo la suma de los residuos al cuadrado. Por lo tanto, para cualquier finita, el punto no puede ser la solución.ββ β β | X β | = 1 β λ β ββ|Xβ|=1βλβ

Notas adicionales sobre el límiteλ

El límite de regresión de cresta habitual para al infinito corresponde a un punto diferente en la regresión de cresta restringida. Este límite 'antiguo' corresponde al punto donde es igual a -1. Entonces la derivada de la función de Lagrange en el problema normalizadoλμ

2(1+μ)XTXβ+2XTy+2λβ
corresponde a una solución para la derivada de la función Lagrange en el problema estándar

2XTXβ+2XTy+2λ(1+μ)βwith β=(1+μ)β


Escrito por StackExchangeStrike

Sexto Empírico
fuente
+1. Muchas gracias, esto es super útil! Necesitaré algo de tiempo para pensarlo.
ameba dice Reinstate Monica
Vale la pena señalar que los elipsoides rojo y negro tienen la misma forma: es por eso que el punto donde tocan se encuentra en la línea que conecta sus centros. Buena prueba gráfica del punto # 1 en mi pregunta.
ameba dice Reinstate Monica
Estoy tratando de entender en qué parte de su dibujo está la beta que corresponde al estimador de cresta con lambda infinita, normalizado para descansar en la elipse negra. Creo que está en algún lugar entre y β (usando mi notación): dos puntos marcados con círculos negros abiertos en su dibujo. Entonces, si hacemos una regresión de cresta y normalizamos la solución y aumentamos lambda de 0 a infinito, probablemente nos lleve a lo largo del mismo arco, pero no todo el camino hasta PC1. En cambio, poner la restricción X β = 1 explícitamente hace que las soluciones vayan hasta PC1. β0βXβ=1
ameba dice Reinstate Monica
+5 (comencé una recompensa que felizmente otorgaré a tu respuesta). También publiqué mi propia respuesta porque hice algunas derivaciones algebraicas y fue demasiado para agregar a la pregunta. No estoy convencido por su conclusión de que la habrá algún finita después de lo cual la solución no va a cambiar más y será impartida por el PC1. No lo veo algebraicamente, y no entiendo muy bien tu argumento de por qué debería existir. Intentemos resolverlo. λlim
ameba dice Reinstate Monica
@amoeba, tenías razón en lo finito no existente. Discutí demasiado intuitivamente y salté rápidamente de una condición particular para la regresión de cresta regular a la regresión de cresta restringida. RR regular tiene una pendiente cero (en todas las direcciones) para | β | 2 en el punto β = 0 . Pensé que (desde β 0 ) no obtienes esto con la regresión restringida. Sin embargo, porque β está limitado al elipsoide | X β | = 1 no puede 'mover' β en todas las direcciones.λlim|β|2β=0β0β|Xβ|=1β
Sextus Empiricus
10

Esta es una contraparte algebraica de la hermosa respuesta geométrica de @ Martijn.

Primero de todo, el límite de β * λ = arg min {y - X β 2 + λ β 2 } cuando lambda es muy simple para obtener: en el límite, el primer término en la función de pérdida es despreciable y por lo tanto se puede despreciar. El problema de optimización se convierte en lim λ β * λ = β * = un r g

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1
λque es el primer componente principal deX(con la escala adecuada). Esto responde a la pregunta.
limλβ^λ=β^=argminXβ2=1β2argmaxβ2=1Xβ2,
X

Ahora consideremos la solución para cualquier valor de que me referí en el punto # 2 de mi pregunta. Sumando a la función de pérdida el multiplicador de Lagrange μ ( X β 2 - 1 ) y diferenciando, obtenemosλμ(Xβ21)

β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.

¿Cómo se comporta esta solución cuando crece de cero a infinito?λ

  • Cuando , obtenemos una versión a escala de la solución MCO: β * 0 ~ β 0 .λ=0

    β^0β^0.
  • Para valores positivos, pero pequeños de , la solución es una versión a escala de algunas estimador de canto: β * λ ~ β λ * .λ

    β^λβ^λ.
  • Cuando , el valor de ( 1 + μ ) necesario para satisfacer la restricción es 0 . Esto significa que la solución es una versión reducida del primer componente PLS (lo que significa que λ * de la correspondiente estimador Ridge es ): β * X Xy ~ Xy .λ=XXy(1+μ)0λ

    β^XXyXy.
  • Cuando hace más grande que eso, el término necesario ( 1 + μ ) se vuelve negativo. De ahora en adelante, la solución es una versión a escala de un estimador de pseudo cresta con parámetro de regularización negativo ( cresta negativa ). En términos de direcciones, ahora hemos pasado la regresión de cresta con lambda infinita.λ(1+μ)

  • λ((1+μ)XX+λI)1μ=λ/smax2+αsmaxX=USVβ^λV1μ=λ/smax2+U1y1

    β^V1.

En general, vemos que este problema de minimización restringida abarca versiones de varianza unitaria de OLS, RR, PLS y PCA en el siguiente espectro:

OLSRRPLSnegative RRPCA

T=corr2(y,Xβ)Varγ(Xβ)s.t.β=1.
γ=0γ=1γ0<γ<11<γ<

A pesar de tener bastante experiencia con RR / PLS / PCA / etc., debo admitir que nunca antes había escuchado sobre "regresión continua". También debería decir que no me gusta este término.


Un esquema que hice basado en el de @ Martijn:

Regresión de cresta de varianza unitaria

Actualización: Figura actualizada con la ruta de cresta negativa, muchas gracias a @Martijn por sugerir cómo debería verse. Vea mi respuesta en Entender la regresión de cresta negativa para más detalles.

ameba dice Reinstate Monica
fuente
La "regresión continua" parece ser una de una categoría sorprendentemente amplia de técnicas destinadas a unificar PLS y PCA dentro de un marco común. Por cierto, nunca había oído hablar de él, hasta que investigué la cresta negativa (proporciono un enlace al documento de Bjorkstron & Sundberg, 1999, en el primer comentario de la pregunta de la cresta negativa a la que se vincula), aunque parece ser bastante discutido en La literatura quimiométrica. Debe haber alguna razón histórica por la cual se ha desarrollado aparentemente aislado de otros campos de la estadística. (1/3)
Ryan Simmons
Un artículo que tal vez quiera leer es de Jong et al. (2001) . Su formulación de "PLS canónico" parece en un vistazo rápido ser equivalente a la suya, aunque admito que todavía no he comparado rigurosamente las matemáticas (también proporcionan una revisión de varias otras generalizaciones de PLS-PCA en la misma línea). Pero puede ser perspicaz ver cómo han explicado el problema. (2/3)
Ryan Simmons
En caso de que ese enlace muera, la cita completa es: Sijmen de Jong, Barry M. Wise, N. Lawrence Ricker. "Mínimos cuadrados parciales canónicos y regresión de potencia continua". Journal of Chemometrics, 2001; 15: 85-100. doi.org/10.1002/… (3/3)
Ryan Simmons
1
λ1+μ±smetrounaX2El |Xβ=1El |μ
1
El |βEl |2=tEl |X(β-β^)El |2=RSSEl |βEl |2=tpagsdounaEl |XβEl |2=1