Según tengo entendido, hay dos categorías principales de métodos iterativos para resolver sistemas lineales de ecuaciones:
- Métodos estacionarios (Jacobi, Gauss-Seidel, SOR, Multigrid)
- Métodos del subespacio de Krylov (gradiente conjugado, GMRES, etc.)
Entiendo que la mayoría de los métodos estacionarios funcionan relajando iterativamente (suavizando) los modos de Fourier del error. Como yo lo entiendo, el método de gradiente conjugado (método de subespacio de Krylov) funciona mediante el "paso a paso" a través de un conjunto óptimo de direcciones de búsqueda de las potencias de la matriz aplicada al º residual. ¿Es este principio común a todos los métodos del subespacio de Krylov? Si no, ¿cómo caracterizamos el principio detrás de la convergencia de los métodos del subespacio de Krylov, en general?
Respuestas:
En general, todos los métodos de Krylov buscan esencialmente un polinomio que sea pequeño cuando se evalúa en el espectro de la matriz. En particular, el º residual de un método Krylov (con conjetura inicial cero) se puede escribir en la forman
donde es algún polinomio monico de grado n .Pn n
Si es diagonalizable, con A = V Λ V - 1 , tenemosA A=VΛV−1
En el caso de que sea normal (p. Ej., Simétrica o unitaria), sabemos que κ ( V ) = 1. GMRES construye dicho polinomio a través de la iteración de Arnoldi, mientras que CG construye el polinomio usando un producto interno diferente (vea esta respuesta para más detalles) . Del mismo modo, BiCG construye su polinomio a través del proceso de Lanczos no simétrico, mientras que la iteración de Chebyshev utiliza información previa sobre el espectro (generalmente estimaciones de los valores propios más grandes y más pequeños para matrices simétricas definidas).A κ(V)=1.
Como un buen ejemplo (motivado por Trefethen + Bau), considere una matriz cuyo espectro es este:
En MATLAB, construí esto con:
Si consideramos GMRES, que construye polinomios que realmente minimizan el residuo sobre todos los polinomios monicos de grado , podemos predecir fácilmente el historial residual observando el polinomio candidaton
que en nuestro caso da
para en el espectro de A .z A
Ahora, si ejecutamos GMRES en un RHS aleatorio y comparamos el historial residual con este polinomio, deberían ser bastante similares (los valores de polinomios candidatos son más pequeños que el residual de GMRES porque ):∥b∥2>1
fuente
En las normas
Como un apéndice a la respuesta de Reid.Atcheson, me gustaría aclarar algunos problemas con respecto a las normas. Al iteración, GMRES encuentra el polinomio P n que minimiza el 2 -norma de la residualnth Pn 2
Supongamos que es SPD, por lo que A induce una norma y también A - 1A A A−1 . Luego
donde hemos usado el error
Thus theA -norm of the error is equivalent to the A−1 norm of the residual. Conjugate gradients minimizes the A -norm of the error which makes it relatively more accurate at resolving low energy modes. The 2 -norm of the residual, which GMRES minimizes, is like the ATA -norm of the error, and thus is weaker in the sense that low-energy modes are less well-resolved. Note that the A -norm of the residual is essentially worthless because it is even weaker on low-energy modes.
Sharpness of convergence bounds
Finally, there is interesting literature regarding different Krylov methods and subtleties of GMRES convergence, especially for non-normal operators.
Nachtigal, Reddy, and Trefethen (1992) How fast are nonsymmetric matrix iterations? (author's pdf) gives examples of matrices for which one method beats all others by a large factor (at least the square root of the matrix size).
Embree (1999) How descriptive are GMRES convergence bounds? gives an insightful discussion in terms of pseudospectra which give sharper bounds and also applies to non-diagonalizable matrices.
Embree (2003) The tortoise and the hare restart GMRES (author pdf)
Greenbaum, Pták, and Strakoš (1996) Any nonincreasing convergence curve is possible for GMRES
fuente
Métodos iterativos en pocas palabras:
Los métodos estacionarios son esencialmente iteraciones de punto fijo : para resolverA x = b , eliges una matriz invertible do y encontrar un punto fijo de
Los métodos de Krylov son métodos de subespacio en esencia métodos de proyección : elige subespaciosU,V⊂Cn and look for a x~∈U such that the residual b−Ax~ is orthogonal to V . For Krylov methods, U of course is the space spanned by powers of A applied to an initial residual. The various methods then correspond to specific choices of V (e.g., V=U for CG and V=AU for GMRES).
The convergence properties of these methods (and projection methods in general) follow from the fact that due to the respective choice ofV , the x~ are optimal over U (e.g., they minimize the error in the energy norm for CG or the residual for GMRES). If you increase the dimension of U in every iteration, you are guaranteed (in exact arithmetic) to find the solution after finitely many steps.
Como señaló Reid Atcheson, usar espacios de Krylov paraU le permite probar tasas de convergencia en términos de valores propios (y, por lo tanto, el número de condición) de UNA . Además, son cruciales para derivar algoritmos eficientes para calcular la proyecciónX~ .
Esto se explica muy bien en el libro de Youcef Saad sobre métodos iterativos .
fuente