KKT en pocas palabras gráficamente

13

Objetivo

Confirme si la comprensión de KKT es correcta o no. Busque más explicaciones y confirmaciones sobre KKT.

Antecedentes

Tratando de entender las condiciones de KKT, especialmente la complementaria, que siempre aparece de la nada en los artículos SVM. No necesito una lista de fórmulas abstractas, pero sí una explicación concreta, intuitiva y gráfica.

Pregunta

Si P, que minimiza la función de costo f (X), está dentro de la restricción (g (P)> = 0), es la solución. Parece que KKT no es relevante en este caso.

ingrese la descripción de la imagen aquí

Parece que KKT dice que si P no está dentro de la restricción, entonces la solución X debería satisfacer a continuación en la imagen. ¿Se trata de KKT o extraño otros aspectos importantes?

ingrese la descripción de la imagen aquí

Otras aclaraciones

  1. ¿Debería f (x) ser convexo para que se aplique KKT?
  2. ¿Debería g (x) ser lineal para que se aplique KKT?
  3. ¿Debería ser necesario λ en λ * g (X) = 0? ¿Por qué g (X) = 0 o g (Xi) = 0 no es suficiente?

Referencias


Actualización 1

Gracias por las respuestas, pero aún me cuesta entender. Concéntrese en la necesidad solo aquí:

¿Es la condición (2) en la respuesta de Matthew Gunn sobre el punto no óptimo (en círculo verde) y KKT no estará satisfecho allí? ¿Y el punto se identificaría mirando a Hessian como en la respuesta de Mark L. Stone?

Supongo que otra situación son los puntos de silla, pero ¿se aplica lo mismo?

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí usuario23658

Lun
fuente
1
Esta pregunta puede atraer más atención en el sitio de matemáticas; Las condiciones de KKT no son necesariamente "estadísticas". Los estadísticos toman prestados estos y otros resultados del análisis numérico para resolver problemas estadísticos interesantes, pero esto es más una cuestión matemática.
user23658
1
(1) Si las restricciones no se unen, el problema de optimización con las restricciones tiene la misma solución que el problema de optimización sin las restricciones. (2) Ni necesita ser convexo ni g debe ser lineal para que las condiciones de KKT sean necesarias de manera óptima. (3) Usted necesita condiciones especiales (por ejemplo, un problema convexo donde se cumple la condición Slater) para que las condiciones KKT se mantengan como condiciones suficientes para un óptimo. fg
Matthew Gunn el
2
La idea básica de la condición de holgura complementaria (es decir, donde g ( x ) 0 es una restricción) es que si la restricción esfloja(es decir, g ( x ) < 0 ) en la x óptima, entonces la penalización λ por apretar la restricción es 0. Y si hay una penalización positiva λ por apretar la restricción, entonces la restricción debe ser vinculante (es decir, g ( x ) =λg(x)=0g(x)0g(x)<0xλλg(x)=0) Si el tráfico fluye suavemente, el peaje del puente para otro automóvil es cero. Y si el peaje del puente λ > 0 , entonces el puente debe estar en el límite de capacidad. λλ>0
Matthew Gunn
1
El teorema básico de KKT dice que si las condiciones de KKT no se cumplen en un punto , entonces el punto x no es óptimo. Las condiciones KKT son necesarias para un óptimo pero no suficiente. (Por ejemplo, si la función tiene puntos de silla de montar, mínimos locales, etc., las condiciones de KKT pueden cumplirse pero el punto no es óptimo). Para ciertas clases de problemas (por ejemplo, problema convexo donde se cumple la condición de Slater), el KKT las condiciones se convierten en condiciones suficientes . xx
Matthew Gunn el

Respuestas:

8

La idea básica de las condiciones KKT como condiciones necesarias para un óptimo es que si no se mantienen en un punto factible , entonces existe una dirección δ que mejorará el objetivo f sin aumentar (y por lo tanto posiblemente violar) las restricciones. (Si las condiciones KKT no se mantienen en x, entonces xxδfxx no puede ser óptimo, por lo tanto, las condiciones KKT son necesarias para que un punto sea óptimo).

Imagine que tiene el problema de optimización:

minimize (over x)f(x)subject toj{1k}gj(x)0

Donde y hay kxRnk restricciones.

Condiciones KKT y Farkas Lemma

Sea un vector de columna que denota el gradiente de f evaluado en xf(x)fx .

Aplicado a esta situación, Farkas Lemma afirma que para cualquier punto exactamente unoxRn cumple de las siguientes afirmaciones:

  1. Existe tal que k j = 1λRk y λ 0j=1kλjgj(x)=f(x)λ0
  2. Existe tal que jδRn y δ f ( x ) < 0jδgj(x)0δf(x)<0

¿Qué significa esto? Significa que para cualquier punto factible , ya sea:x

  • Se cumple la condición (1) y se cumplen las condiciones de KKT.
  • La condición (2) se mantiene y existe una dirección factible δ que mejora la función objetivo sin aumentar las restricciones g j . (por ejemplo, puede mejorar f moviéndose de x a x + ϵ δ )fgjfxx+ϵδ

La condición (1) establece que existen multiplicadores no negativos modo que las condiciones KKT se satisfacen en el punto x . (Geométricamente, dice que - f se encuentra en el cono convexo definido por los gradientes de las restricciones).λxf

La condición (2) establece que en el punto , existe una dirección δ para moverse (localmente) tal que:xδ

  • Moverse en la dirección reduce la función objetivo (porque el producto escalar de f ( x ) y δ es menor que cero).δf(x)δ
  • Moviéndose en dirección no aumenta el valor de las restricciones (porque el producto escalar deg j ( x ) y δ es menor o igual a cero para todas las restricciones j ).δgj(x)δj

(Geométricamente, dirección factible δf(x)gj(x)

(Nota: para mapear esto en Farkas Lemma , defina la matriz A=[g1,g2,,gk]

Este argumento le da la necesidad (pero no la suficiencia) de las condiciones KKT de manera óptima. Si no se cumplen las condiciones de KKT (y se cumplen las calificaciones de restricción), es posible mejorar el objetivo sin violar las restricciones.

El papel de las calificaciones de restricción

¿Qué puede ir mal? Puede obtener situaciones degeneradas en las que los gradientes de las restricciones no describen con precisión las direcciones viables para moverse.

Hay una multitud de calificaciones de restricción diferentes para elegir que permitirán que funcione el argumento anterior.

La interpretación mínima, máxima (en mi opinión, la más intuitiva)

Forma el lagrangiano

L(x,λ)=f(x)+j=1kλjgj(x)

fgjLλi

La solución al problema de optimización original es equivalente a:

minxmaxλL(x,λ)

Es decir:

  1. xL
  2. λx

g2λ2

Dualidad débil

Para cualquier función f(x,y)

x^,y^minxf(x,y^)f(x^,y^)maxyf(x^,y)

x^y^

maxyminxf(x,y)minxmaxyf(x,y)

maxλminxL(x,λ)minxmaxλL(x,λ)

maxλminxL(x,λ)

Fuerte dualidad

Bajo ciertas condiciones especiales (por ejemplo, un problema convexo donde se cumple la condición de Slater), tiene una fuerte dualidad (es decir, la propiedad del punto de silla de montar).

maxλminxL(x,λ)=minxmaxλL(x,λ)

Este hermoso resultado implica que puede revertir el orden del problema.

  1. λ

  2. xL

los λ

Matthew Gunn
fuente
Apreciamos la información y los enlaces para llenar los vacíos de comprensión. Permítame confirmarlo. La condición (1) significa que KKT dice que para que un punto X sea una solución, necesita satisfacer λ * g (X) = 0, λ> = 0, y la longitud del gradiente de g (X) es λ veces de el de f (X), de lo contrario encontraremos el gradiente de la dirección de los puntos f (X) donde se puede encontrar f (X ') más pequeño?
lun
3
La condición de Slater es (solo) una calificación de restricción que se puede aplicar a problemas de optimización convexa, es decir, hace que KKT sea necesario. La convexidad hace que KKT sea suficiente. Por lo tanto, la condición de Slater para el problema de optimización convexa en la que la función objetivo y las restricciones son convexas y continuamente diferenciables hace que KKT sea necesario y suficiente para un mínimo global. La condición de Slater es que hay al menos un punto factible (es decir, satisfacer todas las restricciones) que se encuentra en el estricto interior de todas las restricciones no lineales (todo vale con restricciones lineales, siempre que sea posible).
Mark L. Stone el
5

f (x) ser convexo es necesario para que KKT sea suficiente para que x sea mínimo local. Si f (x) o -g (x) no son convexas, x KKT satisfactorio podría ser mínimo local, punto de referencia o máximo local.

g (x) siendo lineal, junto con f (x) siendo continuamente diferenciable es suficiente para que las condiciones KKT sean necesarias para un mínimo local. g (x) ser lineal significa que se cumple la calificación de restricción de linealidad para que KKT sea necesario para el mínimo local. Sin embargo, hay otras calificaciones de restricción menos restrictivas que son suficientes para que las condiciones KKT sean necesarias para un mínimo local. Consulte la sección Condiciones de regularidad (o calificaciones de restricción) de https://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions .

Si un mínimo local no tiene restricciones "activas" (por lo tanto, en el caso de una restricción de desigualdad, esa restricción no se satisface con la igualdad), los multiplicadores de Lagrange asociados con tales restricciones deben ser cero, en cuyo caso, KKT se reduce a la condición de que el gradiente del objetivo = 0. En tal caso, hay un "costo" cero para el valor objetivo óptimo de un ajuste épsilon de la restricción.

Informacion adicional :

La función objetiva y las restricciones son convexas y continuamente diferenciables implica que KKT es suficiente para un mínimo global.

Si la función objetivo y las restricciones son continuamente diferenciables y las restricciones satisfacen una calificación de restricción, KKT es necesario para un mínimo local.

Si la función objetivo y las restricciones son continuamente diferenciables, convexas y las restricciones satisfacen una calificación de restricción, KKT es necesario y suficiente para un mínimo global.

ZZTHZHZ

Mark L. Stone
fuente