Supongamos que estamos optimizando un modelo con parámetros , minimizando algún criterio sujeto a una restricción en la magnitud del vector de parámetros (por ejemplo, para implementar un enfoque de minimización de riesgos estructurales mediante construyendo un conjunto anidado de modelos de complejidad creciente), necesitaríamos resolver:θ⃗ f(θ⃗ )
minθ⃗ f(θ⃗ )s.t.∥θ⃗ ∥2<C
El lagrangiano para este problema es (advertencia: creo que ha sido un día largo ... ;-)
Λ(θ⃗ ,λ)=f(θ⃗ )+λ∥θ⃗ ∥2−λC.
Por lo tanto, se puede ver fácilmente que una función de costo regularizado está estrechamente relacionada con un problema de optimización restringido con el parámetro de regularización relacionado con la constante que gobierna la restricción ( ), y es esencialmente el multiplicador de Lagrange. λC
Esto ilustra por qué, por ejemplo, la regresión de cresta implementa la minimización del riesgo estructural: la regularización es equivalente a poner una restricción en la magnitud del vector de peso y si entonces cada modelo que se puede hacer mientras se obedece la restricción queC1>C2
∥θ⃗ ∥2<C2
también estará disponible bajo la restricción
∥θ⃗ ∥2<C1 .
Por lo tanto, reducir genera una secuencia de espacios de hipótesis de complejidad creciente.λ