¿Por qué la inversión de una matriz de covarianza produce correlaciones parciales entre variables aleatorias?

32

Escuché que se pueden encontrar correlaciones parciales entre variables aleatorias invirtiendo la matriz de covarianza y tomando celdas apropiadas de dicha matriz de precisión resultante (este hecho se menciona en http://en.wikipedia.org/wiki/Partial_correlation , pero sin una prueba) .

¿Por qué es este el caso?

michal
fuente
1
Si quiere obtener una correlación parcial en una celda controlada para todas las demás variables, entonces el último párrafo aquí puede arrojar luz.
ttnphns

Respuestas:

34

Cuando una variable aleatoria multivariada tiene una matriz de covarianza no degenerada , el conjunto de todas las combinaciones lineales reales de forman un espacio vectorial real dimensional con base y un producto interno no degenerado dado por(X1,X2,,Xn)C=(γij)=(Cov(Xi,Xj))XinE=(X1,X2,,Xn)

Xi,Xj=γij .

Su base dual con respecto a este producto interno , , está definida de manera única por las relacionesE=(X1,X2,,Xn)

Xi,Xj=δij ,

el delta de Kronecker (igual a cuando y caso contrario).i = j 01i=j0

La base dual es de interés aquí porque la correlación parcial de y se obtiene como la correlación entre la parte de que queda después de proyectarla en el espacio abarcado por todos los otros vectores (llamémosla simplemente "residual", ) y la parte comparable de , su residual . Sin embargo, es un vector que es ortogonal a todos los vectores además de y tiene un producto interno positivo con donde debe ser algún múltiplo no negativo de , y de la misma manera paraX j X i X i X j X j X i X i X i X i X i X jXiXjXiXiXjXjXiXiXiXiXiXj. Por lo tanto, escribamos

Xyo=λyoXyo, Xj=λjXj

para números reales positivos y .λ jλyoλj

La correlación parcial es el producto puntual normalizado de los residuos, que no cambia al cambiar la escala:

ρij=Xyo,XjXyo,XyoXj,Xj=λyoλjXyo,Xjλyo2Xyo,Xyoλj2Xj,Xj=Xyo,XjXyo,XyoXj,Xj .

(En cualquier caso, la correlación parcial será cero siempre que los residuos sean ortogonales, sean o no distintos de cero).

Necesitamos encontrar los productos internos de elementos de base dual. Para este fin, expanda los elementos de base dual en términos de la base original :mi

Xyo=j=1norteβyojXj .

Entonces por definición

δyok=Xyo,Xk=j=1norteβyojXj,Xk=j=1norteβyojγjk .

En notación matricial con la matriz de identidad y la matriz de cambio de base, esto indicaB = ( β i j )yo=(δyoj)si=(βyoj)

yo=sido .

Es decir, , que es exactamente lo que afirma el artículo de Wikipedia. La fórmula anterior para la correlación parcial dasi=do-1

ρij=βijβiiβjj=Cij1Cii1Cjj1 .
whuber
fuente
3
+1, gran respuesta. Pero, ¿por qué llamas a esta base dual "base dual con respecto a este producto interno"? ¿Qué significa exactamente "con respecto a este producto interno"? Parece que usa el término "base dual" como se define aquí mathworld.wolfram.com/DualVectorSpace.html en el segundo párrafo ("Dada una base de espacio vectorial para existe una base dual .. . ") o aquí en.wikipedia.org/wiki/Dual_basis , y es independiente de cualquier producto escalar. Vv1,...,vnV
ameba dice Reinstate Monica
3
@amoeba Hay dos tipos de duales. El dual (natural) de cualquier espacio vectorial sobre un campo es el conjunto de funciones lineales , llamado . No hay forma canónica de identificar con , a pesar de que tienen la misma dimensión cuando es de dimensión finita. Cualquier producto interno corresponde a dicho mapa , y viceversa , a través de(La no generación de asegura que es un isomorfismo de espacio vectorial). Esto proporciona una forma de ver elementos deR ϕ : V R V V V V γ g : V V g ( v ) ( w ) = γ ( v , w ) . γ g V V γVRϕ:VRVVVVγg:VV
g(v)(w)=γ(v,w).
γgVcomo si fueran elementos de la doble pero depende de . Vγ
whuber
3
@mpettis Esos puntos fueron difíciles de notar. Los he reemplazado con pequeños círculos abiertos para que la notación sea más fácil de leer. Gracias por señalar esto.
whuber
44
Las respuestas de avión de @Andy Ron Christensen a preguntas complejas podrían ser el tipo de cosa que estás buscando. Desafortunadamente, su enfoque hace que (IMHO) dependa indebidamente de los argumentos y cálculos de coordenadas. En la introducción original (ver p. Xiii), Christensen explica que es por razones pedagógicas.
whuber
3
@whuber, tu prueba es asombrosa. Me pregunto si algún libro o artículo contiene tal prueba para que pueda citar.
Harry
12

Aquí hay una prueba con solo cálculos matriciales.

Agradezco la respuesta de whuber. Es muy perspicaz en las matemáticas detrás de la escena. Sin embargo, todavía no es tan trivial cómo usar su respuesta para obtener el signo menos en la fórmula establecida en la wikipedia Correlación parcial # Using_matrix_inversion .

ρXyoXjV{Xyo,Xj}=-pagsyojpagsyoyopagsjj

Para obtener este signo menos, aquí hay una prueba diferente que encontré en "Graphical Models Lauriten 1995 Page 130". Simplemente se realiza mediante algunos cálculos matriciales.

La clave es la siguiente identidad matricial: donde , y . E=A-BD - 1 CF=D - 1 CG=BD - 1

(UNAsidore)-1=(mi-1-mi-1sol-Fmi-1re-1+Fmi-1sol)
mi=UNA-sire-1doF=re-1dosol=sire-1

Escriba la matriz de covarianza como donde es La matriz de covarianza de y es la matriz de covarianza de . Ω 11 ( X i , X j ) Ω 22 V{ X i , X j }

Ω=(Ω11Ω12Ω21Ω22)
Ω11(Xyo,Xj)Ω22V{Xyo,Xj}

Deje . Del mismo modo, escriba como P P = ( P 11 P 12 P 21 P 22 )PAGS=Ω-1PAGS

PAGS=(PAGS11PAGS12PAGS21PAGS22)

Por la identidad de matriz clave,

PAGS11-1=Ω11-Ω12Ω22-1Ω21

También sabemos que es la matriz de covarianza de (de Multivariate_normal_distribution # Conditional_distributions ). Por lo tanto, la correlación parcial es Utilizo la notación de que la entrada de la matriz se denota por .(Xi,Xj)| V{Xi,Xj}ρXiXjΩ11-Ω12Ω22-1Ω21(Xyo,Xj)El |V{Xyo,Xj}(k,l)M[M]kl

ρXyoXjV{Xyo,Xj}=[PAGS11-1]12[PAGS11-1]11[PAGS11-1]22.
(k,l)M[M]kl

Simplemente fórmula de inversión simple de matriz 2 por 2,

([P111]11[P111]12[P111]21[P111]22)=P111=1detP11([P11]22[P11]12[P11]21[P11]11)

Por lo tanto, que es exactamente lo que afirma el artículo de Wikipedia .

ρXiXjV{Xi,Xj}=[P111]12[P111]11[P111]22=1detP11[P11]121detP11[P11]221detP11[P11]11=[P11]12[P11]22[P11]11
Po C.
fuente
Si dejamos i=j, entonces rho_ii V\{X_i, X_i} = -1, ¿cómo interpretamos esos elementos diagonales en la matriz de precisión?
Jason
Buen punto. La fórmula solo debe ser válida para i = / = j. De la prueba, el signo menos proviene de la inversión matricial de 2 por 2. No sucedería si i = j.
Po C.
Por lo tanto, los números diagonales no pueden asociarse con una correlación parcial. ¿Qué representan? No son solo inversos de las variaciones, ¿verdad?
Jason
Esta fórmula es válida para i = / = j. No tiene sentido para i = j.
Po C.
4

Tenga en cuenta que el signo de la respuesta en realidad depende de cómo defina la correlación parcial. Hay una diferencia entre la regresión de y en las otras variables por separado frente a la regresión de y en las otras variables juntas. Bajo la segunda definición, deje que la correlación entre los residuos y sea . Entonces la correlación parcial de los dos (regresando en y viceversa) es .X j n - 1 X i X j n - 2 ϵ i ϵ j ρ ϵ i ϵ j - ρXiXjn1XiXjn2ϵiϵjρϵiϵjρ

Esto explica la confusión en los comentarios anteriores, así como en Wikipedia. La segunda definición se usa universalmente por lo que puedo decir, por lo que debería haber un signo negativo.

Originalmente publiqué una edición en la otra respuesta, pero cometí un error, ¡perdón por eso!

Johnny Ho
fuente