En el informe técnico sobre Galahad [1], los autores afirman, en el contexto de problemas generales de programación no lineal,
En nuestra opinión, nunca había habido muchas dudas de que los métodos SQP [programación cuadrática secuencial] tendrían más éxito [que los métodos lagrangianos aumentados] a largo plazo ...
¿Cuál podría ser la base de esa creencia? Es decir, ¿hay algún resultado teórico que sugiera que los métodos SQP deberían ser más rápidos / más confiables que los métodos lagrangianos aumentados?
[1] Galahad, una biblioteca de paquetes Fortran 90 seguros para subprocesos para la optimización no lineal a gran escala, por Gould, Orban y Toint
fuente
En términos de iteraciones externas, SQP debería ganar porque incluye información de la segunda derivada, mientras que los métodos lagrangianos aumentados como ADMM no lo hacen.
Sin embargo, una cosa a tener en cuenta es que cada iteración para estos métodos implica la resolución de un sistema lineal, por lo que para hacer una comparación justa, debe tener en cuenta lo fácil que son resolver estos sistemas.
Para los métodos SQP, está resolviendo algo como donde es la arpillera (o aproximación de la misma) que generalmente solo está disponible implícitamente en términos de su acción en los vectores, y es el gradiente. El Hesse contiene no solo , sino también una combinación de otras matrices e inversas matriciales que provienen de la linealización de las restricciones y la regularización.H g A
El preacondicionamiento de Hesse es un negocio bastante complicado y está mucho menos estudiado que el preacondicionamiento de problemas futuros. Un método estándar es aproximar el inverso de Hesse con L-BFGS, pero esto es de efectividad limitada cuando el inverso de Hesse es de alto rango. Otro método popular es aproximar el hessiano como la suma de una matriz de bajo rango más una matriz fácil de invertir, pero esto también tiene una eficacia limitada para problemas difíciles. Otras técnicas populares de estimación de Hesse se basan en aproximaciones dispersas, pero los problemas continuos a menudo tienen Hesse que tienen aproximaciones dispersas pobres.
fuente