¿Cómo interpretar una matriz de covarianza inversa o precisión?

65

Me preguntaba si alguien podría señalarme algunas referencias que discutan la interpretación de los elementos de la matriz de covarianza inversa, también conocida como matriz de concentración o matriz de precisión.

Tengo acceso a las dependencias multivariadas de Cox y Wermuth , pero lo que estoy buscando es una interpretación de cada elemento en la matriz inversa. Wikipedia dice : "Los elementos de la matriz de precisión tienen una interpretación en términos de correlaciones parciales y variaciones parciales", lo que me lleva a esta página. ¿Hay una interpretación sin usar regresión lineal? IE, en términos de covarianzas o geometría?

Vinh Nguyen
fuente
44
¿Leíste toda la página de Wikipedia? Hay una sección sobre geometría y sobre independencia condicional para la distribución normal. Puedes encontrar más en este libro .
NRH
@NRH La geometría se explica en la página de correlación parcial, que aún no estoy seguro de cómo se relaciona con la matriz de concentración. ¿Ese libro de modelos gráficos tiene una explicación de los elementos de la matriz de concentración? ¡Gracias!
Vinh Nguyen
Ver la respuesta a continuación.
NRH

Respuestas:

34

Básicamente hay dos cosas que decir. La primera es que si observa la densidad para la distribución normal multivariada (con media 0 aquí) es proporcional a donde es el inverso de la matriz de covarianza, también llamada precisión. Esta matriz es positiva definida y define a través de un producto interno en . La geometría resultante, que da un significado específico al concepto de ortogonalidad y define una norma relacionada con la distribución normal, es importante, y para comprender, por ejemplo, el contenido geométrico de LDA , necesita ver las cosas a la luz de la geometría dada por

exp(12xTPx)
P=Σ1
(x,y)xTPy
RpP .

La otra cosa que hay que decir es que las correlaciones parciales se pueden leer directamente desde , ver aquí . La misma página de Wikipedia da que las correlaciones parciales, y por lo tanto las entradas de , tienen una interpretación geométrica en términos de coseno a un ángulo. Lo que quizás sea más importante en el contexto de las correlaciones parciales es que la correlación parcial entre y es 0 si y solo si la entrada en es cero. Para la distribución normal, las variables y son condicionalmente independientesPPXiXji,jPXiXjdadas todas las demás variables. De esto se trata el libro de Steffens, al que me referí en el comentario anterior. Independencia condicional y modelos gráficos. Tiene un tratamiento bastante completo de la distribución normal, pero puede no ser tan fácil de seguir.

NRH
fuente
1
Lo siento, estoy un poco confundido con la fórmula de Wikipedia para la correlación parcial; He visto varias implementaciones que toman (con un signo menos). ¿Estás seguro de que la fórmula de Wikipedia es correcta? pijpiipjj
Sheljohn 01 de
1
@ Sh3ljohn, tienes toda la razón. Falta un signo menos en la fórmula de Wikipedia.
NRH
¿No es la primera respuesta realmente hablando más sobre la información de Fisher que la matriz de precisión? Quiero decir que coinciden en el caso gaussiano realmente especial / agradable, pero generalmente no coinciden. Obviamente, los dos conceptos están relacionados (distribución asintótica de MLE, límite inferior de Cramer-Rao, etc.) pero no parece útil combinarlos (específicamente llegué a esta pregunta buscando su pregunta sobre cómo distinguir la información de Fisher y el matriz de correlación inversa).
Chill2Macht
24

Me gusta este modelo gráfico probabilístico para ilustrar el punto de NRH de que la correlación parcial es cero si y solo si X es condicionalmente independiente de Y dado Z, con el supuesto de que todas las variables involucradas son gaussianas multivariadas (la propiedad no se cumple en el caso general) :

ingrese la descripción de la imagen aquí

( son variables aleatorias gaussianas; ignore T y k)yi

Fuente: Charla de David MacKay sobre Gaussian Process Basics , 25 minutos.

Franck Dernoncourt
fuente
12

La interpretación basada en correlaciones parciales es probablemente la más útil estadísticamente, ya que se aplica a todas las distribuciones multivariadas. En el caso especial de la distribución Normal multivariante, la correlación parcial cero corresponde a la independencia condicional.

Puede derivar esta interpretación utilizando el complemento de Schur para obtener una fórmula para las entradas de la matriz de concentración en términos de las entradas de la matriz de covarianza. Ver http://en.wikipedia.org/wiki/Schur_complement#Applications_to_probability_theory_and_statistics

vqv
fuente
11

La matriz de covarianza puede representar la relación entre todas las variables, mientras que la covarianza inversa, calza la relación del elemento con sus vecinos (como dice Wikipedia en relación par / par sabio).

Tomo prestado el siguiente ejemplo de aquí en 24:10, imagino que 5 masas están conectadas juntas y vocales con 6 resortes, la matriz de covarianza contendría la correlación de todas las masas, si una va bien, otras también pueden ir bien. pero la matriz de covarianza inversa calza la relación de esas masas que están conectadas por el mismo resorte (vecino) y contiene muchos ceros y no es necesariamente positivo.

user4581
fuente
1
¿Dónde se explica esto en el video? Es una hora larga. ¡Gracias!
Vinh Nguyen
tienes razón, es a las 24:10, creo que ese es el mejor ejemplo para entender la naturaleza de la matriz cov y su inverso
user4581
5

Bar-Shalom y Fortmann (1988) mencionan la covarianza inversa en el contexto del filtrado de Kalman de la siguiente manera:

... [T] aquí hay una recursión para la covarianza inversa (o matriz de información )

P1(k+1|k+1)=P1(k+1|k)+H(k+1)R1(k+1)H(k+1)

... De hecho, se puede desarrollar un conjunto completo de ecuaciones de predicción y actualización, conocido como filtro de información [8, 29, 142], para la covarianza inversa y un vector de estado transformado .P1x^

El libro está indexado en Google .

Lucero
fuente