Sé la definición de matriz simétrica positiva definida (SPD), pero quiero entender más.
¿Por qué son tan importantes, intuitivamente?
Aquí está lo que sé. ¿Qué más?
Para un dato dado, la matriz de covarianza es SPD. La matriz de covarianza es una métrica importante; consulte esta excelente publicación para obtener una explicación intuitiva.
La forma cuadrática es convexo, sies SPD. La convexidad es una buena propiedad para una función que puede garantizar que la solución local sea global. Para los problemas convexos, hay muchos buenos algoritmos para resolver, pero no para los problemas que no son de la codicia.
Cuando es SPD, la solución de optimización para la forma cuadrática
y la solución para el sistema linealson iguales. Entonces podemos realizar conversiones entre dos problemas clásicos. Esto es importante porque nos permite usar trucos descubiertos en un dominio en el otro. Por ejemplo, podemos usar el método de gradiente conjugado para resolver un sistema lineal.Existen muchos algoritmos buenos (rápidos, numéricos estables) que funcionan mejor para una matriz SPD, como la descomposición de Cholesky.
EDITAR: No estoy tratando de preguntar las identidades para la matriz SPD, sino la intuición detrás de la propiedad para mostrar la importancia. Por ejemplo, como mencionó @Matthew Drury, si una matriz es SPD, los valores propios son todos números reales positivos, pero por qué todos los positivos son importantes. @Matthew Drury tenía una gran respuesta para fluir y eso es lo que estaba buscando.
Respuestas:
Una matriz simétrica (real) tiene un conjunto completo de vectores propios ortogonales para los cuales los valores propios correspondientes son todos números reales. Para matrices no simétricas esto puede fallar. Por ejemplo, una rotación en un espacio bidimensional no tiene vectores propios o valores propios en los números reales, debe pasar a un espacio vectorial sobre los números complejos para encontrarlos.
Si la matriz es adicionalmente positiva definida, entonces estos valores propios son todos números reales positivos. Este hecho es mucho más fácil que el primero, ya que si es un vector propio con longitud unitaria y λ el valor propio correspondiente, entoncesv λ
donde la última igualdad usa la definición de definición positiva.
La importancia aquí para la intuición es que los vectores propios y los valores propios de una transformación lineal describen el sistema de coordenadas en el que la transformación se entiende más fácilmente. Una transformación lineal puede ser muy difícil de entender en una base "natural" como el sistema de coordenadas estándar, pero cada una viene con una base "preferida" de vectores propios en los que la transformación actúa como una escala en todas las direcciones. Esto hace que la geometría de la transformación sea mucho más fácil de entender.
Por ejemplo, la segunda prueba derivada para los extremos locales de una función menudo se da como una serie de condiciones misteriosas que implican una entrada en la segunda matriz derivada y algunos determinantes. De hecho, estas condiciones simplemente codifican la siguiente observación geométrica:R2→R
Puedes entender esto con el razonamiento geométrico anterior en una base propia. La primera derivada en un punto crítico desaparece, por lo que las tasas de cambio de la función aquí están controladas por la segunda derivada. Ahora podemos razonar geométricamente
Dado que los vectores propios abarcan todo el espacio, cualquier otra dirección es una combinación lineal de direcciones propias, por lo que las tasas de cambio en esas direcciones son combinaciones lineales de las tasas de cambio en las direcciones propias. De hecho, esto se cumple en todas las direcciones (esto es más o menos lo que significa que una función definida en un espacio dimensional superior sea diferenciable). Ahora, si dibujas un pequeño dibujo en tu cabeza, esto tiene mucho sentido de algo que es bastante misterioso en los textos de cálculo para principiantes.
Esto aplica directamente a uno de tus puntos
La matriz de segundas derivadas es todas partes, que es simétrica positiva definida. Geométricamente, esto significa que si nos alejamos en cualquier dirección propia (y, por lo tanto, en cualquier dirección, porque cualquier otra es una combinación lineal de direcciones propias), la función misma se doblará por encima de su plano tangente. Esto significa que toda la superficie es convexa.A
fuente
Encontrará cierta intuición en las muchas formas elementales de mostrar que los valores propios de una matriz simétrica real son reales: /mathpro/118626/real-symmetric-matrix-has-real-eigenvalues-elementary- prueba / 118640 # 118640
En particular, la forma cuadrática ocurre naturalmente en el cociente de Rayleigh, y las matrices simétricas proporcionan lo que podría decirse que es la forma más natural de exhibir una gran familia de matrices cuyos valores propios son reales. Vea el teorema de Courant minimax por ejemplo: https://en.wikipedia.org/wiki/Courant_minimax_principlexTAx
Además, matrices definidas estrictamente positivos simétricos son el único conjunto de matrices que puede definir un producto interior no trivial, junto con una norma inducida: . Esto se debe a que, por definición, para los vectores reales x , y d ( x , y ) = d ( y , x ) para todos los x , y y ‖ x ‖ 2 =d(x,y)=⟨x,Ay⟩=xTAy x,y d(x,y)=d(y,x) x,y para x ≠ 0 . De esta manera, las matrices simétricas positivas definidas se pueden ver como candidatos ideales para las transformadas de coordenadas.∥x∥2=xTAx>0 x≠0
Esta última propiedad es absolutamente clave en el área de las máquinas de vectores de soporte, específicamente los métodos del núcleo y el truco del núcleo , donde el núcleo debe ser simétrico positivo para inducir el producto interno correcto. De hecho, el teorema de Mercer generaliza las propiedades intuitivas de las matrices simétricas a espacios funcionales.
fuente
Con respecto a la optimización (porque etiquetó su pregunta con la etiqueta de optimización), las matrices SPD son extremadamente importantes por una simple razón: un SPD Hessian garantiza que la dirección de búsqueda es una dirección de descenso. Considere la derivación del método de Newton para una optimización sin restricciones. Primero, formamos la expansión de Taylor de :f(x+Δx)
A continuación, tomamos la derivada con respecto a :Δx
Finalmente, establezca la derivada igual a 0 y resuelva para :Δx
Suponiendo que es SPD, es fácil ver que Δ x es una dirección de descenso porque:∇2f(x) Δx
Cuando se usa el método de Newton, las matrices de Hess no SPD son típicamente "empujadas" para ser SPD. Hay un algoritmo ordenado llamado Cholesky modificado que detectará un Hessian no SPD, lo "empujará" apropiadamente en la dirección correcta y factorizará el resultado, todo por (esencialmente) el mismo costo que una factorización Cholesky. Los métodos cuasi-Newton evitan este problema al obligar al hessiano aproximado a ser SPD.
Por otro lado, los sistemas simétricos indefinidos están recibiendo mucha atención en estos días. Surgen en el contexto de los métodos de puntos interiores para la optimización restringida.
fuente
Geométricamente, una matriz definida positiva define una métrica , por ejemplo, una métrica de Riemann, por lo que podemos usar de inmediato conceptos geométricos.
SiX y y son vectores y UNA una matriz positiva definida, entonces
re( x , y) = ( x - y)TA(x−y)−−−−−−−−−−−−−−√
is a metric (also called distance function).
In addition, positive definite matrices are related to inner product: InRn , we can define an inner product by
⟨x,y⟩=xTAy
where A as above is positive definite. More, all inner products on Rn arises in this way.
fuente
There are already several answers explaining why symmetric positive definite matrices are so important, so I will provide an answer explaining why they are not as important as some people, including the authors of some of those answers, think. For the sake of simplicity, I will limit focus to symmetric matrices, and concentrate on Hessians and optimization.
If God had made the world convex, there wouldn't be convex optimization, there would just be optimization. Similarly, there wouldn't be (symmetric) positive definite matrices, there would just be (symmetric) matrices. But that's not the case, so deal with it.
If a Quadratic Programming problem is convex, it can be solved "easily". If it is non-convex, a global optimum can still be found using branch and bound methods (but it may take longer and more memory).
If a Newton method is used for optimization and the Hessian at some iterate is indefinite, then it is not necessary to "finagle" it to positive definiteness. If using a line search, directions of negative curvature can be found and the line search executed along them, and if using a trust region, then there is some small enough trust region such that the solution of the trust region problem achieves descent.
As for Quasi-Newton methods, BFGS (damped if the problem is constrained) and DFP maintain positive definiteness of the Hessian or inverse Hessian approximation. Other Quasi-Newton methods, such as SR1 (Symmetric Rank One) do not necessarily maintain positive definiteness. Before you get all bent out of shape over that, that is a good reason for choosing SR1 for many problems - if the Hessian really isn't positive definite along the path to the optimum, then forcing the Quasi-Newton approximation to be positive definite may result in a lousy quadratic approximation to the objective function. By contrast, the SR1 updating method is "loose as a goose", and can writhely morph its definiteness as it proceeds along.
For nonlinearly constrained optimization problems, what really matters is not the Hessian of the objective function, but the Hessian of the Lagrangian. The Hessian of the Lagrangian may be indefinite even at an (the) optimum, and indeed, it is only the projection of the Hessian of the Lagrangian into the nullspace of the Jacobian of the active (linear and nonlinear) constraints which need be positive semi-definite at the optimum. If you model the Hessian of the Lagrangian via BFGS and thereby constrain it to be positive definite, it might be a terrible fit everywhere, and not work well. By contrast, SR1 can adapt its eigenvalues to what it actually "sees".
There's much more that I could say about all of this, but this is enough to give you a flavor.
Edit: What I wrote 2 paragraphs up is correct. However, I forgot to point out that it also applies to linearly constrained problems. In the case of linearly constrained problems, the Hessian of the Lagrangian is just (reduces down to) the Hessian of the objective function. So the 2nd order optimality condition for a local minimum is that the projection of the Hessian of the objective function into the nullspace of the Jacobian of the active constraints is positive semi-definite. Most notably, the Hessian of the objective function need not (necessarily) be psd at the optimum, and often isn't, even on linearly constrained problems.
fuente
You already cited a bunch of reasons why SPD are important yet you still posted the question. So, it seems to me that you need to answer this question first: Why do positive quantities matter?
My answer is that some quantities ought to be positive in order to reconcile with our experiences or models. For instance, the distances between items in the space have to be positive. The coordinates can be negative, but the distances are always non-negative. Hence, if you have a data set and some algorithm that processes it you may well end up with one that breaks down when you feed a negative distance into it. So, you say "my algorithm requires positive distance inputs at all times", and it wouldn't sound like an unreasonable demand.
In the context of statistics, a better analogy would be the variance. So, we calculate the variance as
So, variance-covariance matrices are positive semi-definite, i.e. "non-negative" in this analogy. The example of an algorithm that requires this condition is Cholesky decomposition, it's very handy. It's often called a "square root of the matrix". So, like the square root of a real number that requires non-negativity, Cholesky wants non-negative matrices. We don't find this constraining when dealing with covariance matrices because they always are.
So, that's my utilitarian answer. The constraints such as non-negativity or SPD allow us build more efficient calculation algorithm or convenient modeling tools that are available when your inputs satisfy these constraints.
fuente
Here are two more reasons which haven't been mentioned for why positive-semidefinite matrices are important:
The graph Laplacian matrix is diagonally dominant and thus PSD.
Positive semidefiniteness defines a partial order on the set of symmetric matrices (this is the foundation of semidefinite programming).
fuente