Sensibilidad de BFGS a aproximaciones iniciales de Hesse

9

Estoy tratando de implementar el método Broyden-Fletcher-Goldfarb-Shanno para encontrar el mínimo de una función. Necesito dos conjeturas iniciales y y una aproximación inicial de la matriz de Hesse . Los únicos requisitos que encuentro para es que si el Hessian es simétrico positivo definido, también debería . Al mirar wikipedia, veo que una aproximación inicial típica es (la matriz de identidad). ¿Es esto siempre una buena inicial ? ¿Hay alguna razón por la que quiera elegir otra cosa que sea ? ¿Otras opciones de B, que satisfacen las mismas propiedades de la matriz, afectarían en gran medida la convergencia del método? x 0 B 0 B 0 B 0 B 0 = I B 0 Ix1x0B0B0B0B0=IB0I

Paul
fuente

Respuestas:

6

Si usted tiene una aproximación de Hesse justificada, es mejor usarlo en lugar de lo arbitrario B0=I .

xr>0r+1r+1q=B01f(x)G<1rGde la matriz de identidad. Por lo tanto, tratar de hacer esto pequeño es muy valioso. (Esto es equivalente a preacondicionar el sistema). El factor de convergencia mejora con el tiempo y finalmente se acerca a cero (convergencia superlineal), pero en muchos problemas reales (especialmente los de alta dimensión), uno nunca hace suficientes iteraciones para alcanzar el régimen superlinear. Por lo tanto, la velocidad inicial es bastante importante.

Un caso importante es cuando se resuelven problemas de mínimos cuadrados no lineales (minimizar ), donde la aproximación de Gauss-Newton de la arpillera inicial puede ser calculado sin la necesidad de segundas derivadas. Su uso hace que el método BFGS sea afín invariante, es decir, invariante bajo transformaciones lineales de como el método de Newton, que generalmente es muy beneficioso.F(x)22B0=F(x0)TF(x0)x

Otro caso importante es cuando resuelve una secuencia de problemas relacionados. A menudo, reiniciar el solucionador con la aproximación hessiana final del problema anterior reduce significativamente el número de iteraciones necesarias.

Arnold Neumaier
fuente
Si se espera que el hessian sea simétrico positivo definido, cualquier matriz simétrica positiva definida todavía conducirá a la convergencia, pero la tasa de convergencia se basa en qué tan cerca parece al hessiano. B0B0
Paul
No, eventualmente, BFGS se olvida de la matriz inicial, por lo que la convergencia como siempre tiene el mismo orden. Pero eso, por supuesto, no es interesante porque nunca haces infinitos pasos. k
Wolfgang Bangerth
@Paul: Mira mi edición.
Arnold Neumaier