Medida apropiada para encontrar la matriz de covarianza más pequeña

En el libro de texto que estoy leyendo, usan definición positiva (definición semi-positiva) para comparar dos matrices de covarianza. La idea es que si $A-B$ es pd entonces $B$ es menor que $A$ . ¿Pero me cuesta entender la intuición de esta relación?

Hay un hilo similar aquí:

/math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices

¿Cuál es la intuición para usar la definición para comparar matrices?

Aunque las respuestas son buenas, en realidad no abordan la intuición.

Aquí hay un ejemplo que encuentro confuso:

[\begin{matrix} 16 & 12 \\ 12 & 9 \end{matrix}] - [\begin{matrix} 1 & 2 \\ 2 & 4 \end{matrix}]

$\begin{equation} \begin{bmatrix} 16 & 12 \\ 12 & 9 \end{bmatrix} - \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{equation}$

ahora aquí, el determinante de la diferencia es -25, ¿entonces la relación no es pd o incluso psd y la primera matriz no es mayor que la primera?

Simplemente quiero comparar dos matrices de covarianza 3 * 3 para ver cuál es la más pequeña. Me parecería más intuitivo usar algo como la norma euclidiana para compararlos. Sin embargo, esto significaría que la primera matriz anterior es mayor que la segunda matriz. Además, solo veo el criterio pd / psd utilizado para comparar matrices de covarianza.

¿Alguien puede explicar por qué pd / psd es mejor que usar otra medida como la norma euclidiana?

También publiqué esta pregunta en el foro de matemáticas (no estaba seguro de qué era lo mejor) espero que esto no infrinja ninguna regla.

/math/628135/comparing-two-covariance-matrices

covariance-matrix matrix intuition linear-algebra geometry Baz
fuente

Es posible que desee leer esto donde se considera la intuición detrás de la (semi) definición positiva. Cuando se comparan 2 variaciones ay b, si a-bes positivo, diríamos que al eliminar la variabilidad bde aallí queda algo de variabilidad "real" a. Del mismo modo es un caso de varianzas multivariadas (= matrices de covarianza) Ay B. Si A-Bes definida positiva entonces eso significa que A-Bla configuración de los vectores es "real" en el espacio euclidiano: en otras palabras, al retirar Bde A, este último es todavía una variabilidad viable.

ttnphns

¿Qué quiere decir con la "más pequeña" de dos matrices de covarianza?

whuber

Hola, las matrices de covarianza se relacionan con estimadores competitivos. Deseo seleccionar el estimador que tenga la varianza más pequeña. (¿Esto aclara las cosas?)

Baz

Baz: Entonces, ¿por qué no comparar directamente las variaciones de los estimadores?

Glen_b: reinstala a Mónica el

Hola, el método está configurado, se da la expresión de lo que llaman la varianza (que incluye covarianzas). Sin embargo, incluso si tuviera que comparar solo las variaciones, ¿esto aún implicaría comparar valores de vectores que tendrán problemas similares a la comparación de valores de matriz?

Baz

Respuestas:

El orden de las matrices a las que se refiere se conoce como el orden de Loewner y es un orden parcial muy utilizado en el estudio de matrices definidas positivas. Aquí se encuentra un tratamiento de la geometría de un libro sobre la variedad de matrices positivas-definidas (posdef) .

Primero intentaré abordar su pregunta sobre las intuiciones . Una matriz (simétrica) $A$ es posdef si $c^T A c\ge 0$ para todos los $c \in \mathbb{R}^n$ . Si $X$ es una variable aleatoria (rv) con matriz de covarianza $A$ , entonces $c^T X$ es (proporcional a) su proyección en algún subespacio de un solo dim, y $\mathbb{Var}(c^T X) = c^T A c$ . Aplicando esto a $A-B$ en su Q, en primer lugar: se trata de una matriz de covarianza, en segundo lugar: Una variable aleatoria con la matriz COVAR $B$ proyectos en todas las direcciones con la varianza más pequeña que una va con matriz de covarianza $A$ . Esto deja en claro intuitivamente que este orden solo puede ser parcial, hay muchos rv que se proyectarán en diferentes direcciones con variaciones muy diferentes. Su propuesta de alguna norma euclidiana no tiene una interpretación estadística tan natural.

Su "ejemplo confuso" es confuso porque ambas matrices tienen cero determinante. Entonces, para cada uno, hay una dirección (el vector propio con valor propio cero) donde siempre se proyectan a cero . Pero esta dirección es diferente para las dos matrices, por lo tanto, no se pueden comparar.

El orden de Loewner se define de tal manera que $A \preceq B$ , $B$ es más positivo definido que $A$ , si $B-A$ es posdef. Este es un orden parcial, para algunas matrices posdef ni $B-A$ ni $A-B$ son posdef. Un ejemplo es:

A = (\begin{matrix} 1 & 0.5 \\ 0.5 & 1 \end{matrix}), B = (\begin{matrix} 0.5 & 0 \\ 0 & 1.5 \end{matrix})

$A=\begin{pmatrix} 1 & 0.5 \\ 0.5 & 1 \end{pmatrix}, \quad B= \begin{pmatrix} 0.5 & 0\\ 0 & 1.5 \end{pmatrix}$ Una forma de mostrar esto gráficamente es dibujando un diagrama con dos elipses, pero centrado en el origen, asociado de manera estándar con las matrices (entonces la distancia radial en cada dirección es proporcional a la varianza de proyectando en esa dirección):

En estos casos, las dos elipses son congruentes, pero giran de manera diferente (de hecho, el ángulo es de 45 grados). Esto corresponde al hecho de que las matrices $A$ y $B$ tienen los mismos valores propios, pero los vectores propios están rotados.

Como esta respuesta depende mucho de las propiedades de las elipses, la siguiente ¿Cuál es la intuición detrás de las distribuciones gaussianas condicionales? Explicar las elipses geométricamente puede ser útil.

$A$ $Q_A(c) = c^T A c$ $A \preceq B$ $Q_B$ $Q_A$

Q_{A} (c) = 1, Q_{B} (c) = 1

$Q_A(c)=1, \quad Q_B(c)=1$

A ⪯ B

$A \preceq B$

A ⪯ B

$A \preceq B$

B^{- 1} ⪯ A^{- 1}

$B^{-1} \preceq A^{-1}$

$2\times 2$ $a,b$ $\lambda_1, \lambda_2$

a = \sqrt{1 / λ_{1}}, b = \sqrt{1 / λ_{2}} .

$a = \sqrt{1/\lambda_1}, \quad b=\sqrt{1/\lambda_2}.$

A

$A$

π a b = π \sqrt{1 / λ_{1}} \sqrt{1 / λ_{2}} = \frac{π}{\sqrt{det A}}

$\pi a b= \pi \sqrt{1/\lambda_1}\sqrt{1/\lambda_2} = \frac{\pi}{\sqrt{\det A}}$

Daré un ejemplo final donde se pueden ordenar las matrices:

Las dos matrices en este caso fueron:

A = (\begin{matrix} 2 / 3 & 1 / 5 \\ 1 / 5 & 3 / 4 \end{matrix}), B = (\begin{matrix} 1 & 1 / 7 \\ 1 / 7 & 1 \end{matrix})

$A =\begin{pmatrix}2/3 & 1/5 \\ 1/5 & 3/4\end{pmatrix}, \quad B=\begin{pmatrix} 1& 1/7 \\ 1/7& 1 \end{pmatrix}$

kjetil b halvorsen
fuente

@kjetil b halvorsen ofrece una buena discusión de la intuición geométrica detrás de la semi-definición positiva como un ordenamiento parcial. Daré una versión más sucia de esa misma intuición. Uno que procede de qué tipo de cálculos le gustaría hacer con sus matrices de varianza.

Supongamos que tiene dos variables aleatorias e . Si son escalares, entonces podemos calcular sus variaciones como escalares y compararlos de la manera obvia usando los números reales escalares y . Entonces, si y , decimos que la variable aleatoria tiene una varianza menor que . $x$ $y$ $V(x)$ $V(y)$ $V(x)=5$ $V(y)=15$ $x$ $y$

Por otro lado, si e son variables aleatorias con valores vectoriales (digamos que son dos vectores), no es tan obvio cómo comparamos sus variaciones. Digamos que sus variaciones son: ¿Cómo comparamos las varianzas de estos dos vectores aleatorios? Una cosa que podríamos hacer es comparar las variaciones de sus respectivos elementos. Entonces, podemos decir que la varianza de es menor que la varianza de simplemente comparando números reales, como: y $x$ $y$

\begin{aligned} V (x) = [\begin{array}{cc} 1 & 0.5 \\ 0.5 & 1 \end{array}] V (y) = [\begin{array}{cc} 8 & 3 \\ 3 & 6 \end{array}] \end{aligned}

$\begin{align} V(x) = \left[ \begin{array}{c c} 1 & 0.5 \\ 0.5 & 1 \end{array} \right] \qquad V(y) = \left[ \begin{array}{c c} 8 & 3 \\ 3 & 6 \end{array} \right] \end{align}$

x_{1}

$x_1$

y_{1}

$y_1$

V (x_{1}) = 1 < 8 = V (y_{1})

$V(x_1)=1<8=V(y_1)$

V (x_{2}) = 1 < 6 = V (y_{2})

$V(x_2)=1<6=V(y_2)$ . Entonces, quizás podríamos decir que la varianza de es la varianza de si la varianza de cada elemento de es la varianza del elemento correspondiente de . Esto sería como decir si cada uno de los elementos diagonales de es el elemento diagonal correspondiente de .

x

$x$

\leq

$\le$

y

$y$

x

$x$

\leq

$\le$

y

$y$

V (x) \leq V (y)

$V(x) \le V(y)$

V (x)

$V(x)$

\leq

$\le$

V (y)

$V(y)$

Esta definición parece razonable a primera vista. Además, siempre y cuando las matrices de varianza que estamos considerando sean diagonales (es decir, todas las covarianzas sean 0), es lo mismo que usar semi-definición. Es decir, si las variaciones se ven como luego dice es positivo-semi-definido (es decir, que ) es lo mismo que decir y . Todo parece estar bien hasta que introducimos covarianzas. Considere este ejemplo:

\begin{aligned} V (x) = [\begin{array}{cc} V (x_{1}) & 0 \\ 0 & V (x_{2}) \end{array}] V (y) = [\begin{array}{cc} V (y_{1}) & 0 \\ 0 & V (y_{2}) \end{array}] \end{aligned}

$\begin{align} V(x) = \left[ \begin{array}{c c} V(x_1) & 0 \\ 0 & V(x_2) \end{array} \right] \qquad V(y) = \left[ \begin{array}{c c} V(y_1) & 0 \\ 0 & V(y_2) \end{array} \right] \end{align}$

V (y) - V (x)

$V(y)-V(x)$

V (x) \leq V (y)

$V(x) \le V(y)$

V (x_{1}) \leq V (y_{1})

$V(x_1) \le V(y_1)$

V (x_{2}) \leq V (y_{2})

$V(x_2) \le V(y_2)$

\begin{aligned} V (x) = [\begin{array}{cc} 1 & 0.1 \\ 0.1 & 1 \end{array}] V (y) = [\begin{array}{cc} 1 & 0 \\ 0 & 1 \end{array}] \end{aligned}

$\begin{align} V(x) = \left[ \begin{array}{c c} 1 & 0.1 \\ 0.1 & 1 \end{array} \right] \qquad V(y) = \left[ \begin{array}{c c} 1 & 0 \\ 0 & 1 \end{array} \right] \end{align}$ Ahora, usando una comparación que solo considera las diagonales, diríamos y, de hecho, sigue siendo cierto que elemento por elemento . Lo que podría comenzar a molestarnos al respecto es que si calculamos alguna suma ponderada de los elementos de los vectores, como y , nos encontramos con el hecho de que a pesar de que estamos diciendo .

V (x) \leq V (y)

$V(x) \le V(y)$

V (x_{k}) \leq V (y_{k})

$V(x_k) \le V(y_k)$

3 x_{1} + 2 x_{2}

$3x_1 + 2x_2$

3 y_{1} + 2 y_{2}

$3y_1 + 2y_2$

V (3 x_{1} + 2 x_{2}) > V (3 y_{1} + 2 y_{2})

$V(3x_1 + 2x_2) \gt V(3y_1 + 2y_2)$

V (x) \leq V (y)

$V(x) \le V(y)$

Esto es raro, ¿verdad? Cuando y son escalares, entonces garantiza que para cualquier fijo, no aleatoria , . $x$ $y$ $V(x) \le V(y)$ $a$ $V(ax) \le V(ay)$

Si, por alguna razón, estamos interesados en combinaciones lineales de los elementos de las variables aleatorias como esta, entonces podríamos querer fortalecer nuestra definición de para las matrices de varianza. Tal vez queremos decir si y solo si es cierto que , sin importar qué números fijos y . Tenga en cuenta que esta es una definición más fuerte que la definición de solo diagonales, ya que si dice , y si dice . $\le$ $V(x) \le V(y)$ $V(a_1x_1 + a_2x_2) \le V(a_1y_1 + a_2y_2)$ $a_1$ $a_2$ $a_1=1,a_2=0$ $V(x_1) \le V(y_1)$ $a_1=0,a_2=1$ $V(x_2) \le V(y_2)$

Esta segunda definición, la que dice si y solo si para cada vector fijo posible , es el método habitual para comparar la varianza matrices basadas en una positiva: Observe la última expresión y la definición de semi-definida positiva para ver que la definición de para las matrices de varianza se elige exactamente para garantizar que si y solo si para cualquier elección de , es decir, cuando es semi positivo -definido. $V(x) \le V(y)$ $V(a'x) \le V(a'y)$ $a$

\begin{aligned} V (a^{'} y) - V (a^{'} x) = a^{'} V (x) a - a^{'} V (y) a = a^{'} (V (x) - V (y)) a \end{aligned}

$\begin{align} V(a'y) - V(a'x) = a'V(x)a - a'V(y)a = a'\left(V(x) - V(y) \right)a \end{align}$

\leq

$\le$

V (x) \leq V (y)

$V(x) \le V(y)$

V (a^{'} x) \leq V (a^{'} y)

$V(a'x) \le V(a'y)$

a

$a$

(V (y) - V (x))

$\left( V(y)-V(x) \right)$

Entonces, la respuesta a su pregunta es que la gente dice que una matriz de varianza es más pequeña que una matriz de varianza si es positiva y se define definitivamente porque están interesados en comparar las variaciones de las combinaciones lineales de los elementos de los vectores aleatorios subyacentes. La definición que elija sigue lo que le interesa calcular y cómo esa definición lo ayuda con esos cálculos. $V$ $W$ $W-V$

Cuenta
fuente