Formulación de regresión de crestas como restringida versus penalizada: ¿Cómo son equivalentes?

10

Parece que estoy malentendido una afirmación sobre los métodos de regresión lineal que he visto en varios lugares. Los parámetros del problema son:

Entrada:

N muestras de datos de cantidades de , cada una de las cuales consiste en una cantidad de "respuesta" y p cantidades de "predictor" x_ {ij}p+1yipxij

El resultado deseado es un "buen ajuste lineal" que predice la respuesta en función de los predictores donde un buen ajuste tiene pequeñas diferencias entre la predicción y la respuesta observada (entre otros criterios).

Salida: p+1 coeficientes βj donde β0+j=1pxijβj es un "buen ajuste" para predecir la cantidad de respuesta a partir de las cantidades de predictores.

Estoy confundido sobre el enfoque de "regresión de cresta" para este problema. En "Los elementos del aprendizaje estadístico" de Hastie, Tibshirani y Friedman, página 63, la regresión de la cresta se formula de dos maneras.

Primero como el problema de optimización restringida :

argminβi=1N(yi(β0+j=1p(xijβj)))2
sujeto a la restricción
j=1pβi2t
para algún parámetro positivo t.

El segundo es el problema de optimización penalizado : para algún parámetro positivo .

argminβ(λj=1pβj2)+i=1N(yi(β0+j=1p(xijβj)))2
λ

El texto dice que estas formulaciones son equivalentes y que existe una "correspondencia uno a uno entre los parámetros y ". He visto este reclamo (y otros similares) en varios lugares además de este libro. Creo que me estoy perdiendo algo porque no entiendo cómo las formulaciones son equivalentes según lo entiendo.λt

Considere el caso donde y con , e , . Al elegir el parámetro la formulación restringida se convierte en:N=2p=1y1=0x1,1=0y2=1x1,2=1t=2

argminβ0,β1(β02+(1(β0+β1))2)

expandido a

argminβ0,β1(2β02+2β0β12β0+β122β1+1)

Para resolver esto, encuentre la solución donde las derivadas parciales con respecto a y son cero: con la solución y . Tenga en cuenta que según sea necesario.β0β1

4β0+2β12=0
2β0+2β12=0
β0=0β1=1β02+β12t

¿Cómo se relaciona esta derivación con la otra formulación? De acuerdo con la explicación, hay un valor de corresponde únicamente a donde, si optimizamos la formulación penalizada del problema, obtendremos los mismos y . En este caso, la forma penalizada se convierte en expandido a Para resolver esto, encuentra la solución donde las derivadas parciales con respecto aλtβ0β1

argminβ0,β1(λ(β02+β12)+β02+(1(β0+β1))2)
argminβ0,β1(β02λ+2β02+2β0β12β0+β12λ+β122β1+1)
β0 y son cero: para estas ecuaciones obtengo la solución Si eso es correcto, la única forma de obtener es establecer . Sin embargo, esa sería la misma que necesitaríamos para , entonces, ¿qué quieren decir con "correspondencia uno a uno"?β1
2β0λ+4β0+2β12=0
2β0+2β1λ+2β12=0
β0=λ/(λ2+3λ+1)
β1=(λ+1)/((λ+1)(λ+2)1)
β0=0λ=0λt=4

En resumen, estoy totalmente confundido por las dos presentaciones y no entiendo cómo se corresponden entre sí. No entiendo cómo puede optimizar un formulario y obtener la misma solución para el otro formulario o cómo está relacionado con . Esta es solo una instancia de este tipo de correspondencia, hay otras para otros enfoques como el lazo, y no entiendo ninguna de ellas.λt

Que alguien me ayude por favor.

usuario101311
fuente
1
Relacionado: stats.stackexchange.com/questions/190993 (ver la respuesta aceptada).
ameba
1
El enlace "relacionado" reafirma la correspondencia discutida en la pregunta sin abordar esta pregunta o el caso de ejemplo que se muestra. No creo que responda esta pregunta.
Aaron Watters

Respuestas:

6

La confusión aquí proviene de tratar de trabajar en un rango de valores o donde no hay restricción en la regresión.tλ

En su ejemplo, en el ajuste perfecto de la línea de regresión, la suma de los cuadrados de los coeficientes de regresión es 1. Entonces, el valor de (o cualquier valor de que sea 1 o mayor) no impone restricciones a la regresión. En el espacio de valores , toda la regresión sin restricciones está representada por . No hay correspondencia uno a uno entre y en la regresión sin restricciones ; todos los valores de de 1 o mayores en este caso corresponden a . Esa fue la región que has estado investigando.t=2tλλ=0tλ tλ=0

Solo un valor de menor que 1 colocará una restricción en la regresión, correspondiente a los valores positivos de . Como muestra la respuesta aceptada a esta página , la correspondencia uno a uno entre y contiene " cuando la restricción es vinculante ", en su ejemplo para valores de menores que 1.tλtλt

EdM
fuente
En ese caso, deberían afirmar que la restricción debe ser vinculante. Con eso quieres decir que debemos tenerβj2=tpara que la equivalencia sea válida?
Aaron Watters
1
Para ser justos, no creo que la gente se preocupe demasiado por los detalles de la optimización restringida cuando la restricción no es vinculante. Entonces solo obtienes la solución ordinaria de mínimos cuadrados. Cuando la restricción es vinculante, la optimización debe dar un resultado único en el límite del conjunto de restricciones de manera queβj2=t, proporcionando equivalencia uno a uno de t con λen esa circunstancia
EdM
+1. Si la restricción no es vinculante, entonces todavía hay correspondencia entret y λ pero no es uno a uno: cualquier no vinculante t mapas a λ=0según lo calculado correctamente por @Aaron.
ameba
FYI, soy programador. Es importante saber cuándo un método es apropiado cuando está escribiendo programas de computadora. "La restricción debe ser vinculante" parece omitirse en muchas presentaciones del método.
Aaron Watters
4

La clásica regresión de cresta ( regularización de Tikhonov ) viene dada por:

argminx12xy22+λx22

La afirmación anterior es que el siguiente problema es equivalente:

argminx12xy22subject tox22t

Definamos como la solución óptima del primer problema y como la solución óptima del segundo problema.x^x~

La afirmación de equivalencia significa que . Es decir, siempre puede tener un par de y , por lo que la solución del problema es la misma.t,λ0:x^=x~
tλ0

¿Cómo podemos encontrar un par?
Bueno, resolviendo los problemas y observando las propiedades de la solución.
Ambos problemas son convexos y suaves, por lo que debería simplificar las cosas.

La solución para el primer problema se da en el punto en que el gradiente desaparece, lo que significa:

x^y+2λx^=0

Las condiciones de KKT del segundo problema establecen:

x~y+2μx~=0

y

μ(x~22t)=0

La última ecuación sugiere que o .μ=0x~22=t

Presta atención a que las 2 ecuaciones básicas son equivalentes.
Es decir, si y ambas ecuaciones. x^=x~μ=λ

Entonces significa que en caso de que uno debe establecer que significa que para suficientemente grande para que ambos sean equivalentes, debe establecer .y22tμ=0tλ=0

En el otro caso, uno debe encontrar donde:μ

yt(I+2μI)1(I+2μI)1y=t

Esto es básicamente cuandox~22=t

Una vez que usted encuentra que las soluciones chocará.μ

Con respecto al caso , bueno, funciona con la misma idea. La única diferencia es que no tenemos una solución cerrada, por lo tanto, derivar la conexión es más complicado.L1

Eche un vistazo a mi respuesta en StackExchange Cross Validated Q291962 y StackExchange Signal Processing Q21730 - Significado de en Basis Pursuitλ .

Royi
fuente
¿De dónde vino el mu?
tatami
Lo anterior resuelve 2 problemas diferentes. Como el primero usa , usé como multiplicador de Lagrange para las restricciones de desigualdad del segundo. λμ
Royi