Covarianza para tres variables.

8

Estoy tratando de entender cómo funciona la matriz de covarianza . Supongamos que tenemos dos variables:X,Y, dónde Cov(X,Y)=E[(xE[X])(yE[Y])] da la relación entre las variables, es decir, cuánto depende una de la otra.

Ahora, tres casos variables es menos claro para mí. Una definición intuitiva para la función de covarianza seríaCov(X,Y,Z)=E[(xE[X])(yE[Y])(zE[Z])], pero en cambio la literatura sugiere usar una matriz de covarianza que se define como dos covarianzas variables para cada par de variables.

Entonces, ¿la covarianza incluye información completa sobre relaciones variables? Si es así, ¿cuál es la relación con mi definición deCov(X,Y,Z)?

Karolis
fuente
1
Creo que veo que mi definición simplemente no funciona. Pero, ¿es la matriz de covarianza suficiente para cuantificar la relación entre todas las variables?
Karolis
55
La matriz de covarianza es suficiente para cuantificar la covarianza entre todas las variables, pero no las "relaciones", ya que esto es un concepto general (las variables pueden estar relacionadas o depender de muchas maneras no lineales diferentes que no son capturadas por la covarianza). Una excepción a esto sería si supieras las variables donde las variables múltiples son normales.
Zachary Blumenfeld
Gracias @ZacharyBlumenfeld! ¿Podría recomendar un buen libro de texto sobre esto?
Karolis
2
Cuál es la diferencia entre x y X en el plazo xE[X]? Sé a qué te refieresX - es una variable aleatoria - y también por E[X] - es el valor esperado de X, un número real, pero qué es x? Six es otro número real, entonces xE[X] es un número real, no tiene nada de aleatorio, por lo que su definición se reduce a
cov(X,Y,Z)=E[(xE[X])(yE[Y])(zE[Z])]=(xE[X])(yE[Y])(zE[Z])
porque el valor esperado de un número real es el número real en sí.
Dilip Sarwate
2
@ZacharyBlumenfeld, su comentario casi califica como respuesta. Tal vez debería expandirlo un poco (agregue esoE[(xE[X])(yE[Y])(zE[Z])]es un momento cruzado central de tercer orden, ¿qué más? y publicar como respuesta?
Richard Hardy

Respuestas:

1

Para ampliar el comentario de Zachary, la matriz de covarianza no captura la "relación" entre dos variables aleatorias, ya que "relación" es un concepto demasiado amplio. Por ejemplo, probablemente querríamos incluir la dependencia de dos variables entre sí para incluirlas en cualquier medida de su "relación". Sin embargo, sabemos quecov(X,Y)=0no implica que sean independientes, como es el caso de dos variables aleatorias X ~ U (-1,1) e Y = X ^ 2 (para una breve prueba, consulte: https://en.wikipedia.org / wiki / Covarianza # falta de correlación e independencia ).

Entonces, si pensáramos que la covarianza incluye información completa sobre las relaciones variables, como usted pregunta, la covarianza cero sugiere que no hay dependencia. Esto es lo que quiere decir Zachary cuando dice que puede haber dependencias no lineales que la covarianza no captura.

Sin embargo, dejemos X:=(X1,...,Xn) ser multivariante normal, X ~N(μ,Σ). EntoncesX1,...,Xn son independientes si Σ es una matriz diagonal con todos los elementos fuera de la diagonal = 0 (si todas las covarianzas = 0).

Para ver que esta condición es suficiente, observe que los factores de densidad articular,

f(x1,...,xn)=1(2π)n|Σ|exp(12(xμ)Σ1(xμ))=Πi=1n12πσiiexp((xiμi)22σii)=f1(x1)...fn(xn)
.

Para ver que la condición es necesaria, recuerde el caso bivariado. SiX1 y X2 son independientes, entonces X1 y X1|X2=x2 debe tener la misma varianza, entonces

σ11=σ11|2=σ11σ122σ221

lo que implica σ12=0. Por el mismo argumento, todos los elementos fuera de la diagonal deΣ debe ser cero

(fuente: diapositivas de Econometría avanzada del profesor Geert Dhaene)

hrrrrrr5602
fuente