¿Qué dice la inversa de la matriz de covarianza sobre los datos? (Intuitivamente)

Tengo curiosidad sobre la naturaleza de $\Sigma^{-1}$ . ¿Alguien puede decir algo intuitivo sobre "¿Qué dice $\Sigma^{-1}$ sobre los datos?"

Editar:

Gracias por las respuestas

Después de tomar algunos cursos excelentes, me gustaría agregar algunos puntos:

Es una medida de la información, es decir, $x^T\Sigma^{-1}x$ es la cantidad de información a lo largo de la dirección $x$ .
Dualidad: dado que $\Sigma$ es positivo definido, también lo es $\Sigma^{-1}$ , por lo que son normas de productos de punto, más precisamente son normas duales entre sí, por lo que podemos derivar Fenchel dual para el problema de mínimos cuadrados regularizados y hacer maximización wrt dual problema. Podemos elegir cualquiera de ellos, dependiendo de su condicionamiento.
Espacio de Hilbert: las columnas (y filas) de $\Sigma^{-1}$ y $\Sigma$ abarcan el mismo espacio. Por lo tanto, no hay ninguna ventaja (aparte de que cuando una de estas matrices está mal acondicionada) entre la representación con $\Sigma^{-1}$ o $\Sigma$
$\Sigma^{-1}$ $\|\Sigma^{-1}\|\rightarrow 0$
Estadísticas frecuentes: está estrechamente relacionada con la información de Fisher, utilizando el límite Cramér-Rao. De hecho, la matriz de información del pescador (producto externo del gradiente de log-verosimilitud consigo mismo) está unida a Cramér-Rao, es decir, (cono positivo semi-definido positivo, concentración iewrt positiva elipsoides). Entonces, cuando el estimador de máxima verosimilitud es eficiente, es decir, existe información máxima en los datos, por lo que el régimen frecuentista es óptimo. En palabras más simples, para algunas funciones de probabilidad (tenga en cuenta que la forma funcional de la probabilidad depende únicamente del modelo probabilístico que supuestamente generó datos, también conocido como modelo generativo), la probabilidad máxima es un estimador eficiente y consistente, reglas como un jefe. (perdón por matarlo demasiado) $\Sigma^{-1}\preceq \mathcal{F}$ $\Sigma^{-1}=\mathcal{F}$

bayesian maximum-likelihood covariance matrix Aria
fuente

Creo que PCA recoge un vector propio con valores propios grandes en lugar de valores propios pequeños.

wdg

(3) Es incorrecto, porque equivale a afirmar que las columnas de son las de (hasta una permutación), lo cual es cierto solo para la matriz de identidad.

Σ^{- 1}

$\Sigma^{-1}$

Σ

$\Sigma$

whuber

Respuestas:

Es una medida de precisión al igual que es una medida de dispersión. $\Sigma$

De manera más elaborada, es una medida de cómo las variables se dispersan alrededor de la media (los elementos diagonales) y cómo co-varían con otras variables (los elementos fuera de la diagonal). Cuanto mayor es la dispersión, más alejados están de la media y más varían conjuntamente (en valor absoluto) con las otras variables, más fuerte es la tendencia a que se "muevan juntas" (en la misma dirección o en dirección opuesta dependiendo de signo de la covarianza). $\Sigma$

Del mismo modo, es una medida de cuán estrechamente agrupadas están las variables alrededor de la media (los elementos diagonales) y el grado en que no varían conjuntamente con las otras variables (los elementos fuera de la diagonal). Por lo tanto, cuanto más alto es el elemento diagonal, más apretada se agrupa la variable alrededor de la media. La interpretación de los elementos fuera de la diagonal es más sutil y me remito a las otras respuestas para esa interpretación. $\Sigma^{-1}$

apuntalar
fuente

Un fuerte contraejemplo a su última declaración sobre los elementos fuera de la diagonal de se brinda el ejemplo no trivial más simple en dos dimensiones, Los valores más grandes fuera de la diagonal corresponden a valores más extremos del coeficiente de correlación que es lo opuesto a lo que parece estar diciendo.

Σ^{- 1}

$\Sigma^{-1}$

Σ^{- 1} = (\begin{array}{cc} \frac{1}{1 - ρ^{2}} & - \frac{ρ}{1 - ρ^{2}} \\ - \frac{ρ}{1 - ρ^{2}} & \frac{1}{1 - ρ^{2}} \end{array}) .

$\Sigma^{-1}=\left( \begin{array}{cc} \frac{1}{1-\rho ^2} & -\frac{\rho }{1-\rho ^2} \\ -\frac{\rho }{1-\rho ^2} & \frac{1}{1-\rho ^2} \\ \end{array} \right).$

ρ,

$\rho,$

whuber

@whuber Derecha. Debería deshacerme de la palabra 'absoluta' en la última oración. Gracias

prop

Gracias, pero eso todavía no resuelve el problema: la relación que afirmas entre los elementos fuera de la diagonal de la inversa y la co-variación no existe.

whuber

@whuber, creo que sí. En su ejemplo, los elementos fuera de la diagonal son negativos. Por lo tanto, a medida que aumenta, los elementos fuera de la diagonal disminuyen. Puede verificar esto observando lo siguiente: en el elemento fuera de la diagonal es ; a medida que aproxima a los elementos fuera de diagonal se aproximan a y la derivada del elemento fuera de diagonal con respecto a es negativa.

ρ

$\rho$

ρ = 0

$\rho = 0$

0

$0$

ρ

$\rho$

1

$1$

- \infty

$-\infty$

ρ

$\rho$

prop

Mis elementos fuera de la diagonal son positivos cuando

ρ < 0.

$\rho\lt 0.$

whuber

Usando superíndices para denotar los elementos del inverso, es la varianza del componente de la variable que no está correlacionada con las otras variables , y es la correlación parcial de las variables y , controlando las otras variables . $1/\sigma^{ii}$ $i$ $p-1$ $-\sigma^{ij}/\sqrt{\sigma^{ii}\sigma^{jj}}$ $i$ $j$ $p-2$

Ray Koopman
fuente