¿Por qué son tan importantes las matrices simétricas positivas definidas (SPD)?

20

Sé la definición de matriz simétrica positiva definida (SPD), pero quiero entender más.

¿Por qué son tan importantes, intuitivamente?

Aquí está lo que sé. ¿Qué más?

  • Para un dato dado, la matriz de covarianza es SPD. La matriz de covarianza es una métrica importante; consulte esta excelente publicación para obtener una explicación intuitiva.

  • La forma cuadrática 12XUNAX-siX+does convexo, siUNAes SPD. La convexidad es una buena propiedad para una función que puede garantizar que la solución local sea global. Para los problemas convexos, hay muchos buenos algoritmos para resolver, pero no para los problemas que no son de la codicia.

  • Cuando UNA es SPD, la solución de optimización para la forma cuadrática

    minimize   12xAxbx+c
    y la solución para el sistema lineal
    Ax=b
    son iguales. Entonces podemos realizar conversiones entre dos problemas clásicos. Esto es importante porque nos permite usar trucos descubiertos en un dominio en el otro. Por ejemplo, podemos usar el método de gradiente conjugado para resolver un sistema lineal.
  • Existen muchos algoritmos buenos (rápidos, numéricos estables) que funcionan mejor para una matriz SPD, como la descomposición de Cholesky.

EDITAR: No estoy tratando de preguntar las identidades para la matriz SPD, sino la intuición detrás de la propiedad para mostrar la importancia. Por ejemplo, como mencionó @Matthew Drury, si una matriz es SPD, los valores propios son todos números reales positivos, pero por qué todos los positivos son importantes. @Matthew Drury tenía una gran respuesta para fluir y eso es lo que estaba buscando.

Haitao Du
fuente
77
Los valores propios son todos números reales positivos. Este hecho subyace a muchos de los otros.
Matthew Drury
44
Para ir un poco más allá de @Matthew: Si elige una base adecuada, todas esas matrices son iguales e iguales a la matriz de identidad. En otras palabras, hay exactamente una forma cuadrática definida positiva en cada dimensión (para espacios vectoriales reales) y es lo mismo que la distancia euclidiana.
whuber
2
Encontrará cierta intuición en las muchas formas elementales de mostrar que los valores propios de una matriz simétrica real son todos reales: mathoverflow.net/questions/118626/… En particular, la forma cuadrática ocurre naturalmente en el cociente de Rayleigh, y las matrices simétricas proporcionan una forma natural de exhibir una gran familia de matrices cuyos valores propios son reales. Vea el teorema de Courant minimax por ejemplo: en.wikipedia.org/wiki/Courant_minimax_principlexTAX
Alex R.
44
Esto parece demasiado amplio; si aún no tuviera tres respuestas, probablemente lo habría cerrado sobre esa base. Ofrezca más orientación sobre lo que desea saber específicamente (pedir intuición es demasiado personal / individual para que la gente adivine en un caso como este)
Glen_b -Reinstate a Monica
1
Me está resultando difícil encontrar una situación en las estadísticas que daría lugar a una matriz que no sea psd (a menos que haya cometido un error al calcular una matriz de correlación, por ejemplo, llenándola con correlación por pares calculada en datos con valores faltantes) . Cualquier matriz simétrica cuadrada que se me ocurra es una covarianza, una información o una matriz de proyección. (En otras partes de la matemática aplicada, las matrices no psd pueden ser una norma cultural, por ejemplo, las matrices de elementos finitos en PDE, por ejemplo)
StasK

Respuestas:

15

Una matriz simétrica (real) tiene un conjunto completo de vectores propios ortogonales para los cuales los valores propios correspondientes son todos números reales. Para matrices no simétricas esto puede fallar. Por ejemplo, una rotación en un espacio bidimensional no tiene vectores propios o valores propios en los números reales, debe pasar a un espacio vectorial sobre los números complejos para encontrarlos.

Si la matriz es adicionalmente positiva definida, entonces estos valores propios son todos números reales positivos. Este hecho es mucho más fácil que el primero, ya que si es un vector propio con longitud unitaria y λ el valor propio correspondiente, entoncesvλ

λ=λvtv=vtAv>0

donde la última igualdad usa la definición de definición positiva.

La importancia aquí para la intuición es que los vectores propios y los valores propios de una transformación lineal describen el sistema de coordenadas en el que la transformación se entiende más fácilmente. Una transformación lineal puede ser muy difícil de entender en una base "natural" como el sistema de coordenadas estándar, pero cada una viene con una base "preferida" de vectores propios en los que la transformación actúa como una escala en todas las direcciones. Esto hace que la geometría de la transformación sea mucho más fácil de entender.

Por ejemplo, la segunda prueba derivada para los extremos locales de una función menudo se da como una serie de condiciones misteriosas que implican una entrada en la segunda matriz derivada y algunos determinantes. De hecho, estas condiciones simplemente codifican la siguiente observación geométrica:R2R

  • Si la matriz de segundas derivadas es positiva definida, estás en un mínimo local.
  • Si la matriz de segundas derivadas es negativa definida, estás en un máximo local.
  • De lo contrario, no estás en ninguno de los dos, un punto de silla de montar.

Puedes entender esto con el razonamiento geométrico anterior en una base propia. La primera derivada en un punto crítico desaparece, por lo que las tasas de cambio de la función aquí están controladas por la segunda derivada. Ahora podemos razonar geométricamente

  • En el primer caso, hay dos direcciones propias, y si te mueves, la función aumenta.
  • En el segundo, dos direcciones propias, y si te mueves, la función disminuye.
  • En el último, hay dos direcciones propias, pero en una de ellas la función aumenta, y en la otra disminuye.

Dado que los vectores propios abarcan todo el espacio, cualquier otra dirección es una combinación lineal de direcciones propias, por lo que las tasas de cambio en esas direcciones son combinaciones lineales de las tasas de cambio en las direcciones propias. De hecho, esto se cumple en todas las direcciones (esto es más o menos lo que significa que una función definida en un espacio dimensional superior sea diferenciable). Ahora, si dibujas un pequeño dibujo en tu cabeza, esto tiene mucho sentido de algo que es bastante misterioso en los textos de cálculo para principiantes.

Esto aplica directamente a uno de tus puntos

La forma cuadrática es convexo, siAes SPD. Convex es una buena propiedad que puede garantizar que la solución local sea global.12xAxbx+cA

La matriz de segundas derivadas es todas partes, que es simétrica positiva definida. Geométricamente, esto significa que si nos alejamos en cualquier dirección propia (y, por lo tanto, en cualquier dirección, porque cualquier otra es una combinación lineal de direcciones propias), la función misma se doblará por encima de su plano tangente. Esto significa que toda la superficie es convexa.A

Matthew Drury
fuente
55
Una forma gráfica de verlo: si es SPD, los contornos de la forma cuadrática asociada son elipsoidales. A
JM no es un estadístico
77
Esa caracterización de @JM es muy perceptiva. En caso de que alguien se pregunte qué podría ser especial sobre los contornos elipsoidales, tenga en cuenta que son solo esferas perfectas disfrazadas: las unidades de medida pueden diferir a lo largo de sus ejes principales y los elipsoides pueden rotarse con respecto a las coordenadas en las que se describen los datos , pero para muchos propósitos, especialmente los conceptuales, esas diferencias son intrascendentes.
whuber
Eso está relacionado con mi forma de entender el método de Newton geométricamente. Aproxima mejor el nivel actual establecido con un elipsoide, y luego toma un sistema de coordenadas donde el elipsoide es un círculo, muévete ortogonal al círculo en ese sistema de coordenadas.
Matthew Drury
1
Si hay restricciones (activas), debe proyectar en el jacobiano las restricciones activas antes de hacer el valor propio y la línea de dirección propia. Si el Hessian es psd, la (cualquier) proyección será psd, pero lo contrario no es necesariamente cierto, y a menudo no lo es. Mira mi respuesta.
Mark L. Stone el
10

Encontrará cierta intuición en las muchas formas elementales de mostrar que los valores propios de una matriz simétrica real son reales: /mathpro/118626/real-symmetric-matrix-has-real-eigenvalues-elementary- prueba / 118640 # 118640

En particular, la forma cuadrática ocurre naturalmente en el cociente de Rayleigh, y las matrices simétricas proporcionan lo que podría decirse que es la forma más natural de exhibir una gran familia de matrices cuyos valores propios son reales. Vea el teorema de Courant minimax por ejemplo: https://en.wikipedia.org/wiki/Courant_minimax_principlexTAx

Además, matrices definidas estrictamente positivos simétricos son el único conjunto de matrices que puede definir un producto interior no trivial, junto con una norma inducida: . Esto se debe a que, por definición, para los vectores reales x , y d ( x , y ) = d ( y , x ) para todos los x , y y x 2 =d(x,y)=x,Ay=xTAyx,y d(x,y)=d(y,x)x,y para x 0 . De esta manera, las matrices simétricas positivas definidas se pueden ver como candidatos ideales para las transformadas de coordenadas.x2=xTAx>0x0

Esta última propiedad es absolutamente clave en el área de las máquinas de vectores de soporte, específicamente los métodos del núcleo y el truco del núcleo , donde el núcleo debe ser simétrico positivo para inducir el producto interno correcto. De hecho, el teorema de Mercer generaliza las propiedades intuitivas de las matrices simétricas a espacios funcionales.

Alex R.
fuente
9

Con respecto a la optimización (porque etiquetó su pregunta con la etiqueta de optimización), las matrices SPD son extremadamente importantes por una simple razón: un SPD Hessian garantiza que la dirección de búsqueda es una dirección de descenso. Considere la derivación del método de Newton para una optimización sin restricciones. Primero, formamos la expansión de Taylor de :f(x+Δx)

f(x+Δx)f(x)+ΔxTf(x)+12ΔxT2f(x)Δx

A continuación, tomamos la derivada con respecto a :Δx

f(x+Δx)f(x)+2f(x)Δx

Finalmente, establezca la derivada igual a 0 y resuelva para :Δx

Δx=2f(x)1f(x)

Suponiendo que es SPD, es fácil ver que Δ x es una dirección de descenso porque:2f(x)Δx

f(x)TΔx=f(x)T2f(x)1f(x)<0

Cuando se usa el método de Newton, las matrices de Hess no SPD son típicamente "empujadas" para ser SPD. Hay un algoritmo ordenado llamado Cholesky modificado que detectará un Hessian no SPD, lo "empujará" apropiadamente en la dirección correcta y factorizará el resultado, todo por (esencialmente) el mismo costo que una factorización Cholesky. Los métodos cuasi-Newton evitan este problema al obligar al hessiano aproximado a ser SPD.

Por otro lado, los sistemas simétricos indefinidos están recibiendo mucha atención en estos días. Surgen en el contexto de los métodos de puntos interiores para la optimización restringida.

Bill Woessner
fuente
Muchas gracias por una gran respuesta. Entiendo que la dirección decente es importante en el método de búsqueda de línea. En los métodos de la región de confianza, ¿también es importante una dirección decente?
Haitao Du
1
Sigue siendo importante para los métodos de la región de confianza. Los métodos de región de confianza funcionan básicamente al delimitar el tamaño del paso PRIMERO y luego resolver la dirección del paso. Si el paso no logra la disminución deseada en el valor de la función objetivo, reduce el límite en el tamaño del paso y comienza de nuevo. Imagine que su algoritmo para generar la dirección del paso no garantiza que la dirección del paso sea una dirección de descenso. Incluso cuando el radio de la región de confianza va a 0, es posible que nunca genere un paso aceptable (incluso si existe) porque ninguna de las instrucciones de su paso son direcciones de descenso.
Bill Woessner
Los métodos de búsqueda de línea básicamente exhiben el mismo comportamiento. Si su dirección de búsqueda no es una dirección de descenso, es posible que el algoritmo de búsqueda de línea nunca encuentre una longitud de paso aceptable, porque no hay una. :-)
Bill Woessner
Gran respuesta, gracias por ayudarme a conectar las piezas.
Haitao Du
9

Geométricamente, una matriz definida positiva define una métrica , por ejemplo, una métrica de Riemann, por lo que podemos usar de inmediato conceptos geométricos.

Si X y y son vectores y UNA una matriz positiva definida, entonces

d(x,y)=(xy)TA(xy)
is a metric (also called distance function).

In addition, positive definite matrices are related to inner product: In Rn, we can define an inner product by

x,y=xTAy
where A as above is positive definite. More, all inner products on Rn arises in this way.

kjetil b halvorsen
fuente
1
...and of course the usual distance has A=I...
J. M. is not a statistician
6

There are already several answers explaining why symmetric positive definite matrices are so important, so I will provide an answer explaining why they are not as important as some people, including the authors of some of those answers, think. For the sake of simplicity, I will limit focus to symmetric matrices, and concentrate on Hessians and optimization.

If God had made the world convex, there wouldn't be convex optimization, there would just be optimization. Similarly, there wouldn't be (symmetric) positive definite matrices, there would just be (symmetric) matrices. But that's not the case, so deal with it.

If a Quadratic Programming problem is convex, it can be solved "easily". If it is non-convex, a global optimum can still be found using branch and bound methods (but it may take longer and more memory).

If a Newton method is used for optimization and the Hessian at some iterate is indefinite, then it is not necessary to "finagle" it to positive definiteness. If using a line search, directions of negative curvature can be found and the line search executed along them, and if using a trust region, then there is some small enough trust region such that the solution of the trust region problem achieves descent.

As for Quasi-Newton methods, BFGS (damped if the problem is constrained) and DFP maintain positive definiteness of the Hessian or inverse Hessian approximation. Other Quasi-Newton methods, such as SR1 (Symmetric Rank One) do not necessarily maintain positive definiteness. Before you get all bent out of shape over that, that is a good reason for choosing SR1 for many problems - if the Hessian really isn't positive definite along the path to the optimum, then forcing the Quasi-Newton approximation to be positive definite may result in a lousy quadratic approximation to the objective function. By contrast, the SR1 updating method is "loose as a goose", and can writhely morph its definiteness as it proceeds along.

For nonlinearly constrained optimization problems, what really matters is not the Hessian of the objective function, but the Hessian of the Lagrangian. The Hessian of the Lagrangian may be indefinite even at an (the) optimum, and indeed, it is only the projection of the Hessian of the Lagrangian into the nullspace of the Jacobian of the active (linear and nonlinear) constraints which need be positive semi-definite at the optimum. If you model the Hessian of the Lagrangian via BFGS and thereby constrain it to be positive definite, it might be a terrible fit everywhere, and not work well. By contrast, SR1 can adapt its eigenvalues to what it actually "sees".

There's much more that I could say about all of this, but this is enough to give you a flavor.

Edit: What I wrote 2 paragraphs up is correct. However, I forgot to point out that it also applies to linearly constrained problems. In the case of linearly constrained problems, the Hessian of the Lagrangian is just (reduces down to) the Hessian of the objective function. So the 2nd order optimality condition for a local minimum is that the projection of the Hessian of the objective function into the nullspace of the Jacobian of the active constraints is positive semi-definite. Most notably, the Hessian of the objective function need not (necessarily) be psd at the optimum, and often isn't, even on linearly constrained problems.

Mark L. Stone
fuente
@GeoMatt22 You bet your @$$ I'm not. On the other hand, if you are going to create (choose) a loss function, there's no need to make it non-convex when it serves no good purpose other than show-boating. Discretion is the better part of valor.
Mark L. Stone
@Mark L. Stone: This is interesting! Can you give reference to some literature where I can read about such things?
kjetil b halvorsen
@kjetil b halvorsen . Line search with directions of negative curvature folk.uib.no/ssu029/Pdf_file/Curvilinear/More79.pdf . Trust regions are covered in many books and papers. Well-known book with good intro to trust regions is amazon.com/… .. Monster book, somewhat out of date now, is epubs.siam.org/doi/book/10.1137/1.9780898719857 . As for my last paragraph about optimality conditions, read up on 2nd order KKT conditions
Mark L. Stone
@kjetil b halvorsen I didn't address finding global optimum of non-convex Quadratic Program. Widely available software, such as CPLEX, can do this, see ibm.com/support/knowledgecenter/SS9UKU_12.6.1/… . Of course it is not always fast, and may need some memory. I've solved to global optimality some QP minimization problems with tens of thousands of variables which had several hundred signficant magnitude negative eigenvalues.
Mark L. Stone
5

You already cited a bunch of reasons why SPD are important yet you still posted the question. So, it seems to me that you need to answer this question first: Why do positive quantities matter?

My answer is that some quantities ought to be positive in order to reconcile with our experiences or models. For instance, the distances between items in the space have to be positive. The coordinates can be negative, but the distances are always non-negative. Hence, if you have a data set and some algorithm that processes it you may well end up with one that breaks down when you feed a negative distance into it. So, you say "my algorithm requires positive distance inputs at all times", and it wouldn't sound like an unreasonable demand.

In the context of statistics, a better analogy would be the variance. So, we calculate the variance as

i(xiμ)2/n
It's obvious from the definition that if you feed in the real numbers xi into the equation the output is always non-negative. Hence, you may build algorithms that work with non-negative numbers, and they may be more efficient than algorithm without this restriction. That's the reason we use them.

So, variance-covariance matrices are positive semi-definite, i.e. "non-negative" in this analogy. The example of an algorithm that requires this condition is Cholesky decomposition, it's very handy. It's often called a "square root of the matrix". So, like the square root of a real number that requires non-negativity, Cholesky wants non-negative matrices. We don't find this constraining when dealing with covariance matrices because they always are.

So, that's my utilitarian answer. The constraints such as non-negativity or SPD allow us build more efficient calculation algorithm or convenient modeling tools that are available when your inputs satisfy these constraints.

Aksakal
fuente
3

Here are two more reasons which haven't been mentioned for why positive-semidefinite matrices are important:

  1. The graph Laplacian matrix is diagonally dominant and thus PSD.

  2. Positive semidefiniteness defines a partial order on the set of symmetric matrices (this is the foundation of semidefinite programming).

Thoth
fuente