¿Una matriz de covarianza muestral siempre es simétrica y positiva definida?

33

Al calcular la matriz de covarianza de una muestra, ¿se garantiza que se obtenga una matriz simétrica y definida positiva?

Actualmente mi problema tiene una muestra de 4600 vectores de observación y 24 dimensiones.

Morten
fuente
Para muestrear la matriz de covarianza utilizo la fórmula: donde es el número de muestras y es la media de la muestra. n ˉ xQn=1ni=1n(xix¯)(xix¯)nx¯
Morten
44
Eso normalmente se llamaría 'calcular la matriz de covarianza de la muestra' o 'estimar la matriz de covarianza' en lugar de 'muestrear la matriz de covarianza'.
Glen_b -Reinstate Monica
1
Una situación común en la que la matriz de covarianza no está definida es cuando las 24 "dimensiones" registran la composición de una mezcla que suma al 100%.
whuber

Respuestas:

41

Para una muestra de vectores , con , el vector medio de la muestra es y la matriz de covarianza de muestra es Para un vector distinto de cero , tenemos Por lo tanto, siempre es positivo semi-definido .xi=(xi1,,xik)i=1,,n

x¯=1ni=1nxi,
Q=1ni=1n(xix¯)(xix¯).
yRk
yQy=y(1ni=1n(xix¯)(xix¯))y
=1ni=1ny(xix¯)(xix¯)y
=1ni=1n((xix¯)y)20.()
Q

La condición adicional para que sea ​​positiva definida se dio en el comentario de whuber a continuación. Va de la siguiente manera.Q

Defina , para . Para cualquier distinto de cero , es cero si y solo si , para cada . Supongamos que el conjunto abarca . Luego, hay números reales modo que . Pero luego tenemos , dando como resultado que , una contradicción. Por lo tanto, si el de , entonceszi=(xix¯)i=1,,nyRk()ziy=0i=1,,n{z1,,zn}Rkα1,,αny=α1z1++αnznyy=α1z1y++αnzny=0y=0ziRkQr a n k [ z 1z n ] = kEs positivo definitivo . Esta condición es equivalente a .rank[z1zn]=k

zen
fuente
2
Me gusta este enfoque, pero recomendaría algunos cuidados: no es necesariamente positivo definido. Las condiciones (necesarias y suficientes) para que así sea se describen en mi comentario a la respuesta de Konstantin. Q
whuber
1
Como el rango de es menor o igual a , la condición puede simplificarse para que el rango sea igual a k. k[z1,z2,,zn]k
una oferta no puede rechazar el
13

Una matriz de covarianza correcta es siempre simétrica y positiva * semi * definida.

La covarianza entre dos variables se desafía como .σ(x,y)=E[(xE(x))(yE(y))]

Esta ecuación no cambia si cambia las posiciones de e . Por lo tanto, la matriz tiene que ser simétrica.yxy

También tiene que ser positivo * semi- * definido porque:

Siempre puede encontrar una transformación de sus variables de manera que la matriz de covarianza se convierta en diagonal. En la diagonal, encontrará las variaciones de sus variables transformadas que son cero o positivas, es fácil ver que esto hace que la matriz transformada sea semidefinida positiva. Sin embargo, dado que la definición de definición es invariante a la transformación, se deduce que la matriz de covarianza es semidefinida positiva en cualquier sistema de coordenadas elegido.

Cuando calcule su matriz de covarianza (es decir, cuando calcule su covarianza de muestra ) con la fórmula que indicó anteriormente, será obv. sigue siendo simétrico También tiene que ser semidefinido positivo (creo), porque para cada muestra, el pdf que le da a cada punto de muestra la misma probabilidad tiene la covarianza de la muestra como su covarianza (alguien por favor verifique esto), por lo que todo lo mencionado anteriormente todavía se aplica.

Konstantin Schubert
fuente
1
PD: Estoy empezando a pensar que esta no era tu pregunta ...
Konstantin Schubert
Pero si desea saber si su algoritmo de muestreo lo garantiza, deberá indicar cómo está muestreando.
Konstantin Schubert
1
uQnu0uQn1/nvivivi=xix¯)nuQnuu(vivi)u(uvi)(uvi)uvin>0uQnu0uQnu=0uviuvi=0iviu=0Qn
1
@Morten La transformación-invariancia es bastante clara si entiendes una matriz de multiplicación geométrica. Piensa en tu vector como una flecha. Los números que describen su vector cambian con el sistema de coordenadas, pero la dirección y la longitud de su vector no. Ahora, una multiplicación con una matriz significa que cambia la longitud y la dirección de esa flecha, pero nuevamente el efecto es geométricamente el mismo en cada sistema de coordenadas. Lo mismo ocurre con un producto escalar: se define geométricamente y la geometría es invariante para la transformación. Entonces su ecuación tiene el mismo resultado en todos los sistemas.
Konstantin Schubert
1
Av=AvvM=AMATvTMv>0vTMv=(Av)TAMATAv>0vTATAMATAv>0ATAvTMv>0
0

Las matrices de varianza-covarianza son siempre simétricas, ya que se puede demostrar a partir de la ecuación real para calcular cada término de dicha matriz.

Además, las matrices de varianza-covarianza son siempre matrices cuadradas de tamaño n, donde n es el número de variables en su experimento.

Los vectores propios de matrices simétricas son siempre ortogonales.

Con PCA, usted determina los valores propios de la matriz para ver si puede reducir el número de variables utilizadas en su experimento.

GEN
fuente
1
Bienvenido Gen. Tenga en cuenta que su nombre de usuario, identicon y un enlace a su página de usuario se agregan automáticamente a cada publicación que realice, por lo que no es necesario firmar sus publicaciones.
Antoine Vernet
3
Esta respuesta podría mejorarse abordando el tema de la definición positiva
Silverfish
Esto realmente no responde a la pregunta: es solo una colección de afirmaciones no compatibles que pueden ser relevantes o no. ¿Podría replantearlo de una manera que muestre cómo se responde la pregunta y explique el razonamiento?
whuber
0

n1k

x1,x2,...,xnx1,x2,...,xnz1,z2,...,zni=1nzi=0x1,x2,...,xnz1,z2,...,znRn1n1kRk

x1,x2,...,xnn1k

giominas
fuente
0

Para aquellos con antecedentes no matemáticos como yo que no captan rápidamente las fórmulas matemáticas abstractas, este es un ejemplo excelente de Excel para la respuesta más votada. La matriz de covarianza se puede derivar de otras maneras también.

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Parikshit Bhinde
fuente
¿Podría explicar cómo esta hoja de cálculo demuestra la definición positiva de la matriz de covarianza?
whuber
No es asi. Me costó mucho visualizar la matriz de covarianza en su propia forma de notación. Así que creé esta hoja para mí y pensé que podría ayudar a alguien.
Parikshit Bhinde
Por favor, edítelo para incluir una respuesta a la pregunta.
whuber
Hecho :) Gracias por sugerir.
Parikshit Bhinde
La pregunta es "¿se garantiza que uno obtenga una matriz simétrica y positiva definida?" No puedo percibir ningún elemento de su publicación que aborde esto, porque (1) nunca identifica una matriz de covarianza; (2) no demuestra la definición positiva de nada.
whuber