¡Estoy enseñando una clase de encuesta de análisis numérico y estoy buscando motivación para el método BFGS para estudiantes con experiencia / intuición limitada en optimización!
J k ( → x k - → x k - 1 ) = f ( → x k ) - f ( → x k - 1 )
¡Las derivaciones de las actualizaciones de BFGS parecen mucho más complicadas y turbias! En particular, me gustaría no asumir a priori que la actualización debe ser de rango 2 o tomar una forma particular. ¿Existe una breve motivación de aspecto variado para la actualización de BFGS Hessian como la de Broyden?
optimization
iterative-method
nonlinear-programming
Justin Solomon
fuente
fuente
Respuestas:
La derivación del BFGS es más intuitiva cuando se consideran (estrictamente) los costos convexos funcionales:
Sin embargo, es necesaria cierta información de fondo : supongamos que se quiere minimizar una función convexa
Dado que el cálculo y la inversión del hessiano son caros ...
... una respuesta corta
(véase la actualización de Broyden) podría ser que la actualización BFGSH−1k+1 minimiza
Luego, la elección del peso enW ∥H∥W:=∥W1/2HW1/2∥F
G:=∫10H(xk+τp)dτ αk=1
como la inversa dela arpillera promedio , cf. aquí para la declaración pero sin pruebas, da la fórmula de actualización BFGS (con ).‖ H ‖ W : = ‖ W 1 / 2 H W 1 / 2 ‖ F G : = ∫ 1 0 H ( x k + τ p ) d τ alpha k = 1Los puntos principales son:
Una respuesta más larga debe incluir cómo elegir los pesos, cómo hacer que esto funcione para problemas no convexos (donde aparece una condición de curvatura que requiere una escala de la dirección de búsqueda ), y cómo derivar la fórmula real para la actualización. Una referencia está aquí (en alemán).p
fuente