En el libro de texto que estoy leyendo, usan definición positiva (definición semi-positiva) para comparar dos matrices de covarianza. La idea es que si es pd entonces es menor que . ¿Pero me cuesta entender la intuición de esta relación?
Hay un hilo similar aquí:
/math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices
¿Cuál es la intuición para usar la definición para comparar matrices?
Aunque las respuestas son buenas, en realidad no abordan la intuición.
Aquí hay un ejemplo que encuentro confuso:
ahora aquí, el determinante de la diferencia es -25, ¿entonces la relación no es pd o incluso psd y la primera matriz no es mayor que la primera?
Simplemente quiero comparar dos matrices de covarianza 3 * 3 para ver cuál es la más pequeña. Me parecería más intuitivo usar algo como la norma euclidiana para compararlos. Sin embargo, esto significaría que la primera matriz anterior es mayor que la segunda matriz. Además, solo veo el criterio pd / psd utilizado para comparar matrices de covarianza.
¿Alguien puede explicar por qué pd / psd es mejor que usar otra medida como la norma euclidiana?
También publiqué esta pregunta en el foro de matemáticas (no estaba seguro de qué era lo mejor) espero que esto no infrinja ninguna regla.
a
yb
, sia-b
es positivo, diríamos que al eliminar la variabilidadb
dea
allí queda algo de variabilidad "real"a
. Del mismo modo es un caso de varianzas multivariadas (= matrices de covarianza)A
yB
. SiA-B
es definida positiva entonces eso significa queA-B
la configuración de los vectores es "real" en el espacio euclidiano: en otras palabras, al retirarB
deA
, este último es todavía una variabilidad viable.Respuestas:
El orden de las matrices a las que se refiere se conoce como el orden de Loewner y es un orden parcial muy utilizado en el estudio de matrices definidas positivas. Aquí se encuentra un tratamiento de la geometría de un libro sobre la variedad de matrices positivas-definidas (posdef) .
Primero intentaré abordar su pregunta sobre las intuiciones . Una matriz (simétrica)A es posdef si cTAc≥0 para todos los c∈Rn . Si X es una variable aleatoria (rv) con matriz de covarianza A , entonces cTX es (proporcional a) su proyección en algún subespacio de un solo dim, y Var(cTX)=cTAc . Aplicando esto a A−B en su Q, en primer lugar: se trata de una matriz de covarianza, en segundo lugar: Una variable aleatoria con la matriz COVAR B proyectos en todas las direcciones con la varianza más pequeña que una va con matriz de covarianza A . Esto deja en claro intuitivamente que este orden solo puede ser parcial, hay muchos rv que se proyectarán en diferentes direcciones con variaciones muy diferentes. Su propuesta de alguna norma euclidiana no tiene una interpretación estadística tan natural.
Su "ejemplo confuso" es confuso porque ambas matrices tienen cero determinante. Entonces, para cada uno, hay una dirección (el vector propio con valor propio cero) donde siempre se proyectan a cero . Pero esta dirección es diferente para las dos matrices, por lo tanto, no se pueden comparar.
El orden de Loewner se define de tal manera queA⪯B , B es más positivo definido que A , si B−A es posdef. Este es un orden parcial, para algunas matrices posdef ni B−A ni A−B son posdef. Un ejemplo es:
A=(10.50.51),B=(0.5001.5)
Una forma de mostrar esto gráficamente es dibujando un diagrama con dos elipses, pero centrado en el origen, asociado de manera estándar con las matrices (entonces la distancia radial en cada dirección es proporcional a la varianza de proyectando en esa dirección):
En estos casos, las dos elipses son congruentes, pero giran de manera diferente (de hecho, el ángulo es de 45 grados). Esto corresponde al hecho de que las matricesA y B tienen los mismos valores propios, pero los vectores propios están rotados.
Como esta respuesta depende mucho de las propiedades de las elipses, la siguiente ¿Cuál es la intuición detrás de las distribuciones gaussianas condicionales? Explicar las elipses geométricamente puede ser útil.
Daré un ejemplo final donde se pueden ordenar las matrices:
Las dos matrices en este caso fueron:A=(2/31/51/53/4),B=(11/71/71)
fuente
@kjetil b halvorsen ofrece una buena discusión de la intuición geométrica detrás de la semi-definición positiva como un ordenamiento parcial. Daré una versión más sucia de esa misma intuición. Uno que procede de qué tipo de cálculos le gustaría hacer con sus matrices de varianza.
Supongamos que tiene dos variables aleatorias e . Si son escalares, entonces podemos calcular sus variaciones como escalares y compararlos de la manera obvia usando los números reales escalares y . Entonces, si y , decimos que la variable aleatoria tiene una varianza menor que .x y V(x) V(y) V(x)=5 V(y)=15 x y
Por otro lado, si e son variables aleatorias con valores vectoriales (digamos que son dos vectores), no es tan obvio cómo comparamos sus variaciones. Digamos que sus variaciones son: ¿Cómo comparamos las varianzas de estos dos vectores aleatorios? Una cosa que podríamos hacer es comparar las variaciones de sus respectivos elementos. Entonces, podemos decir que la varianza de es menor que la varianza de simplemente comparando números reales, como: yx y V(x)=[10.50.51]V(y)=[8336] x1 y1 V(x1)=1<8=V(y1) V(x2)=1<6=V(y2) . Entonces, quizás podríamos decir que la varianza de es la varianza de si la varianza de cada elemento de es la varianza del elemento correspondiente de . Esto sería como decir si cada uno de los elementos diagonales de es el elemento diagonal correspondiente de .x ≤ y x ≤ y V(x)≤V(y) V(x) ≤ V(y)
Esta definición parece razonable a primera vista. Además, siempre y cuando las matrices de varianza que estamos considerando sean diagonales (es decir, todas las covarianzas sean 0), es lo mismo que usar semi-definición. Es decir, si las variaciones se ven como luego dice es positivo-semi-definido (es decir, que ) es lo mismo que decir y . Todo parece estar bien hasta que introducimos covarianzas. Considere este ejemplo:V(x)=[V(x1)00V(x2)]V(y)=[V(y1)00V(y2)] V(y)−V(x) V(x)≤V(y) V(x1)≤V(y1) V(x2)≤V(y2) V(x)=[10.10.11]V(y)=[1001]
Ahora, usando una comparación que solo considera las diagonales, diríamos y, de hecho, sigue siendo cierto que elemento por elemento . Lo que podría comenzar a molestarnos al respecto es que si calculamos alguna suma ponderada de los elementos de los vectores, como y , nos encontramos con el hecho de que a pesar de que estamos diciendo .V(x)≤V(y) V(xk)≤V(yk) 3x1+2x2 3y1+2y2 V(3x1+2x2)>V(3y1+2y2) V(x)≤V(y)
Esto es raro, ¿verdad? Cuando y son escalares, entonces garantiza que para cualquier fijo, no aleatoria , .x y V(x)≤V(y) a V(ax)≤V(ay)
Si, por alguna razón, estamos interesados en combinaciones lineales de los elementos de las variables aleatorias como esta, entonces podríamos querer fortalecer nuestra definición de para las matrices de varianza. Tal vez queremos decir si y solo si es cierto que , sin importar qué números fijos y . Tenga en cuenta que esta es una definición más fuerte que la definición de solo diagonales, ya que si dice , y si dice .≤ V(x)≤V(y) V(a1x1+a2x2)≤V(a1y1+a2y2) a1 a2 a1=1,a2=0 V(x1)≤V(y1) a1=0,a2=1 V(x2)≤V(y2)
Esta segunda definición, la que dice si y solo si para cada vector fijo posible , es el método habitual para comparar la varianza matrices basadas en una positiva: Observe la última expresión y la definición de semi-definida positiva para ver que la definición de para las matrices de varianza se elige exactamente para garantizar que si y solo si para cualquier elección de , es decir, cuando es semi positivo -definido.V(x)≤V(y) V(a′x)≤V(a′y) a V(a′y)−V(a′x)=a′V(x)a−a′V(y)a=a′(V(x)−V(y))a ≤ V(x)≤V(y) V(a′x)≤V(a′y) a (V(y)−V(x))
Entonces, la respuesta a su pregunta es que la gente dice que una matriz de varianza es más pequeña que una matriz de varianza si es positiva y se define definitivamente porque están interesados en comparar las variaciones de las combinaciones lineales de los elementos de los vectores aleatorios subyacentes. La definición que elija sigue lo que le interesa calcular y cómo esa definición lo ayuda con esos cálculos.V W W−V
fuente