Que muestra la equivalencia entre el Norma regularizada Regresión y Norma restringida de regresión utilizando KKT

11

Según las referencias Libro 1 , Libro 2 y papel .

Se ha mencionado que existe una equivalencia entre la regresión regularizada (Ridge, LASSO y Elastic Net) y sus fórmulas de restricción.

También he visto Cross Validated 1 y Cross Validated 2 , pero no puedo ver una respuesta clara que muestre esa equivalencia o lógica.

Mi pregunta es

¿Cómo mostrar esa equivalencia usando Karush – Kuhn – Tucker (KKT)?

Las siguientes fórmulas son para la regresión de Ridge.

Cresta

NOTA

Esta pregunta no es tarea. Es solo para aumentar mi comprensión de este tema.

ACTUALIZAR

Aún no tengo la idea.

jeza
fuente
¿Por qué necesitas más de 1 respuesta? La respuesta actual parece abordar la pregunta de manera integral. Si desea obtener más información sobre los métodos de optimización, Convex Optimization Lieven Vandenberghe y Stephen P. Boyd es un buen lugar para comenzar.
Sycorax dice Reinstate Monica el
@Sycorax, gracias por tus comentarios y el libro que me proporcionas. La respuesta no es tan clara para mí y no puedo pedir más aclaraciones. Por lo tanto, más de una respuesta puede permitirme ver una perspectiva diferente y una forma de descripción.
jeza
@jeza, ¿qué falta en mi respuesta?
Royi
1
Escriba su pregunta como texto, no solo publique una fotografía (consulte aquí ).
gung - Restablece a Monica

Respuestas:

10

La respuesta más técnica es porque el problema de optimización restringida puede escribirse en términos de multiplicadores de Lagrange. En particular, el lagrangiano asociado con el problema de optimización restringida viene dado por donde es un multiplicador elegido para satisfacer las restricciones del problema. Las condiciones de primer orden (que son suficientes ya que está trabajando con buenas funciones convexas adecuadas) para este problema de optimización pueden obtenerse diferenciando el Lagrangiano con respecto a

L(β)=argminβ{i=1N(yij=1pxijβj)2}+μ{(1α)j=1p|βj|+αj=1pβj2}
μβy establecer las derivadas iguales a 0 (es un poco más matizado ya que la parte LASSO tiene puntos indiferenciables, pero hay métodos del análisis convexo para generalizar la derivada para que la condición de primer orden todavía funcione). Está claro que estas condiciones de primer orden son idénticas a las condiciones de primer orden del problema sin restricciones que anotó.

Sin embargo, creo que es útil ver por qué, en general, con estos problemas de optimización, a menudo es posible pensar sobre el problema a través de la lente de un problema de optimización restringido o a través de la lente de un problema sin restricciones. Más concretamente, supongamos que tenemos un problema de optimización sin restricciones de la siguiente forma: Siempre podemos intentar resolver esta optimización directamente, pero a veces, puede tener sentido dividir este problema en subcomponentes En particular, no es difícil ver que Entonces, para un valor fijo de

maxxf(x)+λg(x)
maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt
λ(y suponiendo que las funciones que se van a optimizar realmente alcanzan su nivel óptimo), podemos asociarle un valor que resuelva el problema de optimización externa. Esto nos da una especie de mapeo desde problemas de optimización sin restricciones hasta problemas restringidos. En su entorno particular, dado que todo se comporta bien para la regresión neta elástica, este mapeo debería de hecho ser uno a uno, por lo que será útil poder cambiar entre estos dos contextos dependiendo de cuál sea más útil para una aplicación en particular. En general, esta relación entre problemas restringidos y no restringidos puede comportarse peor, pero aún puede ser útil pensar en qué medida puede moverse entre el problema restringido y el no restringido.t

Editar: según lo solicitado, incluiré un análisis más concreto para la regresión de crestas, ya que captura las ideas principales y evita tener que lidiar con los tecnicismos asociados con la no diferenciabilidad de la penalización LASSO. Recuerde, estamos resolviendo el problema de optimización (en notación matricial):

argminβ{i=1NyixiTβ}s.t.||β||2M

Sea la solución OLS (es decir, cuando no hay restricción). Luego me enfocaré en el caso donde(siempre que esto exista) ya que de lo contrario, la restricción no es interesante ya que no se une. El lagrangiano para este problema se puede escribir Luego , al diferenciar , obtenemos condiciones de primer orden: que es solo un sistema de ecuaciones lineales y, por lo tanto, puede resolverse: βOLSM<||βOLS||

L(β)=argminβ{i=1NyixiTβ}μ||β||2M
0=2(i=1Nyixi+(i=1NxixiT+μI)β)
β^=(i=1NxixiT+μI)1(i=1Nyixi)
para alguna elección de multiplicador . El multiplicador se elige simplemente para hacer que la restricción sea verdadera, es decir, necesitamosμ

((i=1NxixiT+μI)1(i=1Nyixi))T((i=1NxixiT+μI)1(i=1Nyixi))=M
que existe ya que el LHS es monotónico en . Esta ecuación proporciona un mapeo explícito de multiplicadores a restricciones, con cuando existe el RHS y Esta asignación en realidad corresponde a algo bastante intuitivo. El teorema de la envoltura nos dice queμμ(0,)M(0,||βOLS||)
limμ0M(μ)=||βOLS||
limμM(μ)=0
μ(M)corresponde a la disminución marginal en el error que reciben de una pequeña relajación de la restricción . Esto explica por qué cuando corresponde a. Una vez que la restricción no es vinculante, ya no tiene valor relajarla, por lo que el multiplicador desaparece.Mμ0M||βOLS||

stats_model
fuente
¿podría proporcionarnos una respuesta detallada paso a paso con un ejemplo práctico si es posible?
jeza
muchas gracias, ¿por qué no mencionas KKT? No estoy familiarizado con esta área, así que trátame como un estudiante de secundaria.
jeza
Las condiciones de KKT en este caso son una generalización de las "condiciones de primer orden" que menciono al diferenciar el lagrangiano y establecer la derivada igual a 0. Dado que en este ejemplo, las restricciones se mantienen con igualdad, no necesitamos las condiciones de KKT en lleno en general. En casos más complicados, todo lo que sucede es que algunas de las igualdades anteriores se convierten en desigualdades y el multiplicador se convierte en 0 para que las restricciones se vuelvan no vinculantes. Por ejemplo, esto es exactamente lo que sucede cuandoen lo anterior M>||βOLS||
stats_model
3

Hay un gran análisis por stats_model en su respuesta .

Traté de responder una pregunta similar en La prueba de fórmulas equivalentes de regresión de cresta .

Tomaré más enfoque Hand On para este caso.
Intentemos ver la asignación entre y en los 2 modelos.tλ

Como escribí y se puede ver en stats_model en su análisis, la asignación depende de los datos. Por lo tanto, elegiremos una realización específica del problema. Sin embargo, el código y el bosquejo de la solución agregarán intuición a lo que está sucediendo.

Compararemos los siguientes 2 modelos:

The Regularized Model: argminx12Axy22+λx22

The Constrained Model: argminx12Axy22subject tox22t

Supongamos que sea ​​la solución del modelo regularizado y para ser la solución del modelo restringido.x^x~

Estamos viendo la asignación de a modo que . Mirando mi solución para Solver for Norm Constraint Least Squares, uno podría ver que resolver el Modelo restringido implica resolver el Modelo regularizado y encontrar el que coincida con (El código real se presenta en Least Squares con Euclidean ( ) Restricción de la norma ).tλx^=x~
λtL2

Entonces ejecutaremos el mismo solucionador y para cada mostraremos la óptima .tλ

El solucionador básicamente resuelve:

argλλsubject to(ATA+2λI)1ATb22t=0

Así que aquí está nuestra matriz:

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

Y aquí está nuestro vector:

vB =

    0.7087
   -1.2776
    0.0753
    1.1536
    1.2268
    1.5418

Este es el mapeo:

ingrese la descripción de la imagen aquí

Como se puede ver arriba, para un valor suficientemente alto de el parámetro como se esperaba.tλ=0

Acercamiento al rango [0, 10]:

ingrese la descripción de la imagen aquí

El código completo está disponible en mi repositorio GitHub Q401212 validado cruzado de StackExchange .

Royi
fuente