Motivado por esta respuesta principal a la pregunta: ¿Por qué la convexidad es más importante que la cuasi convexidad en la optimización? , Ahora espero entender por qué los problemas convexos son fáciles de optimizar (o al menos más fáciles que los problemas cuasiconvexos ).
¿Cuáles son algunos de los algoritmos más eficientes para la optimización convexa y por qué no se pueden usar de manera efectiva en problemas cuasiconvexos ?
optimization
convex-optimization
Amelio Vazquez-Reina
fuente
fuente
Respuestas:
La mayoría de los mejores métodos modernos para la optimización a gran escala implican hacer una aproximación cuadrática local a la función objetivo, avanzar hacia el punto crítico de esa aproximación y luego repetir. Esto incluye el método de Newton, L-BFGS, etc.
Una función solo puede ser localmente bien aproximada por un cuadrático con un mínimo si el hessiano en el punto actual es positivo definido. Si el hessiano es indefinido, entonces
La aproximación cuadrática local es una buena aproximación local a la función objetivo y, por lo tanto, es una superficie de silla de montar. Luego, el uso de esta aproximación cuadrática sugeriría moverse hacia un punto de silla de montar, que probablemente esté en la dirección incorrecta, o
La aproximación cuadrática local se ve obligada a tener un mínimo por construcción, en cuyo caso es probable que sea una mala aproximación a la función objetivo original.
(El mismo tipo de problemas surgen si el Hessian es negativo definido, en cuyo caso localmente parece un cuenco al revés)
Por lo tanto, estos métodos funcionarán mejor si el Hessian es positivo definido en todas partes, lo que es equivalente a la convexidad para funciones suaves.
Por supuesto, todos los buenos métodos modernos tienen salvaguardas para garantizar la convergencia al moverse a través de regiones donde el Hessian es indefinido: por ejemplo, búsqueda de línea, regiones de confianza, detención de una solución lineal cuando se encuentra una dirección de curvatura negativa, etc. Sin embargo, en En tales regiones indefinidas, la convergencia es generalmente mucho más lenta, ya que no se puede utilizar la información de curvatura completa sobre la función objetivo.
fuente
Puede intentar aplicar un algoritmo de optimización convexo a un problema de optimización no convexo, e incluso podría converger a un mínimo local, pero al tener solo información local sobre la función, nunca podrá concluir que de hecho Encontré el mínimo global. La propiedad teórica más importante de los problemas de optimización convexa es que cualquier mínimo local (de hecho, cualquier punto estacionario) también es un mínimo global.
Los algoritmos para la optimización global de problemas no convexos deben tener algún tipo de información global (por ejemplo, continuidad de Lipschitz de la función) para demostrar que una solución es un mínimo global.
Para responder a su pregunta específica sobre por qué un algoritmo de optimización convexo podría fallar en un problema cuasi convexo, suponga que su algoritmo de optimización convexo se inicia en un "punto plano" en el gráfico de la función objetivo. No hay información local en el gradiente que le indique a dónde ir después. Para un problema convexo, simplemente puede detenerse, sabiendo que ya estaba en un punto mínimo local (y, por lo tanto, global).
fuente