Según las referencias Libro 1 , Libro 2 y papel .
Se ha mencionado que existe una equivalencia entre la regresión regularizada (Ridge, LASSO y Elastic Net) y sus fórmulas de restricción.
También he visto Cross Validated 1 y Cross Validated 2 , pero no puedo ver una respuesta clara que muestre esa equivalencia o lógica.
Mi pregunta es
¿Cómo mostrar esa equivalencia usando Karush – Kuhn – Tucker (KKT)?
Las siguientes fórmulas son para la regresión de Ridge.
NOTA
Esta pregunta no es tarea. Es solo para aumentar mi comprensión de este tema.
ACTUALIZAR
Aún no tengo la idea.
Respuestas:
La respuesta más técnica es porque el problema de optimización restringida puede escribirse en términos de multiplicadores de Lagrange. En particular, el lagrangiano asociado con el problema de optimización restringida viene dado por donde es un multiplicador elegido para satisfacer las restricciones del problema. Las condiciones de primer orden (que son suficientes ya que está trabajando con buenas funciones convexas adecuadas) para este problema de optimización pueden obtenerse diferenciando el Lagrangiano con respecto aL(β)=argminβ⎧⎩⎨∑i=1N(yi−∑j=1pxijβj)2⎫⎭⎬+μ{(1−α)∑j=1p|βj|+α∑j=1pβ2j} μ β y establecer las derivadas iguales a 0 (es un poco más matizado ya que la parte LASSO tiene puntos indiferenciables, pero hay métodos del análisis convexo para generalizar la derivada para que la condición de primer orden todavía funcione). Está claro que estas condiciones de primer orden son idénticas a las condiciones de primer orden del problema sin restricciones que anotó.
Sin embargo, creo que es útil ver por qué, en general, con estos problemas de optimización, a menudo es posible pensar sobre el problema a través de la lente de un problema de optimización restringido o a través de la lente de un problema sin restricciones. Más concretamente, supongamos que tenemos un problema de optimización sin restricciones de la siguiente forma: Siempre podemos intentar resolver esta optimización directamente, pero a veces, puede tener sentido dividir este problema en subcomponentes En particular, no es difícil ver que Entonces, para un valor fijo demaxxf(x)+λg(x) maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt λ (y suponiendo que las funciones que se van a optimizar realmente alcanzan su nivel óptimo), podemos asociarle un valor que resuelva el problema de optimización externa. Esto nos da una especie de mapeo desde problemas de optimización sin restricciones hasta problemas restringidos. En su entorno particular, dado que todo se comporta bien para la regresión neta elástica, este mapeo debería de hecho ser uno a uno, por lo que será útil poder cambiar entre estos dos contextos dependiendo de cuál sea más útil para una aplicación en particular. En general, esta relación entre problemas restringidos y no restringidos puede comportarse peor, pero aún puede ser útil pensar en qué medida puede moverse entre el problema restringido y el no restringido.t∗
Editar: según lo solicitado, incluiré un análisis más concreto para la regresión de crestas, ya que captura las ideas principales y evita tener que lidiar con los tecnicismos asociados con la no diferenciabilidad de la penalización LASSO. Recuerde, estamos resolviendo el problema de optimización (en notación matricial):
Sea la solución OLS (es decir, cuando no hay restricción). Luego me enfocaré en el caso donde(siempre que esto exista) ya que de lo contrario, la restricción no es interesante ya que no se une. El lagrangiano para este problema se puede escribir Luego , al diferenciar , obtenemos condiciones de primer orden: que es solo un sistema de ecuaciones lineales y, por lo tanto, puede resolverse:βOLS M<∣∣∣∣βOLS∣∣∣∣ L(β)=argminβ{∑i=1Nyi−xTiβ}−μ⋅||β||2≤M 0=−2(∑i=1Nyixi+(∑i=1NxixTi+μI)β) β^=(∑i=1NxixTi+μI)−1(∑i=1Nyixi)
para alguna elección de multiplicador . El multiplicador se elige simplemente para hacer que la restricción sea verdadera, es decir, necesitamosμ
fuente
Hay un gran análisis por stats_model en su respuesta .
Traté de responder una pregunta similar en La prueba de fórmulas equivalentes de regresión de cresta .
Tomaré más enfoque Hand On para este caso.t λ
Intentemos ver la asignación entre y en los 2 modelos.
Como escribí y se puede ver en stats_model en su análisis, la asignación depende de los datos. Por lo tanto, elegiremos una realización específica del problema. Sin embargo, el código y el bosquejo de la solución agregarán intuición a lo que está sucediendo.
Compararemos los siguientes 2 modelos:
Supongamos que sea la solución del modelo regularizado y para ser la solución del modelo restringido.x^ x~
Estamos viendo la asignación de a modo que . Mirando mi solución para Solver for Norm Constraint Least Squares, uno podría ver que resolver el Modelo restringido implica resolver el Modelo regularizado y encontrar el que coincida con (El código real se presenta en Least Squares con Euclidean ( ) Restricción de la norma ).t λ x^=x~
λ t L2
Entonces ejecutaremos el mismo solucionador y para cada mostraremos la óptima .t λ
El solucionador básicamente resuelve:
Así que aquí está nuestra matriz:
Y aquí está nuestro vector:
Este es el mapeo:
Como se puede ver arriba, para un valor suficientemente alto de el parámetro como se esperaba.t λ=0
Acercamiento al rango [0, 10]:
El código completo está disponible en mi repositorio GitHub Q401212 validado cruzado de StackExchange .
fuente