Al calcular la matriz de covarianza de una muestra, ¿se garantiza que se obtenga una matriz simétrica y definida positiva?
Actualmente mi problema tiene una muestra de 4600 vectores de observación y 24 dimensiones.
sampling
covariance
Morten
fuente
fuente
Respuestas:
Para una muestra de vectores , con , el vector medio de la muestra es y la matriz de covarianza de muestra es Para un vector distinto de cero , tenemos Por lo tanto, siempre es positivo semi-definido .Xyo= ( xyo 1, ... , xyo k)⊤ i = 1 , ... , n x¯=1n∑i=1nxi, Q=1n∑i=1n(xi−x¯)(xi−x¯)⊤. y∈Rk y⊤Qy=y⊤(1n∑i=1n(xi−x¯)(xi−x¯)⊤)y
=1n∑i=1ny⊤(xi−x¯)(xi−x¯)⊤y
=1n∑i=1n((xi−x¯)⊤y)2≥0.(∗) Q
La condición adicional para que sea positiva definida se dio en el comentario de whuber a continuación. Va de la siguiente manera.Q
Defina , para . Para cualquier distinto de cero , es cero si y solo si , para cada . Supongamos que el conjunto abarca . Luego, hay números reales modo que . Pero luego tenemos , dando como resultado que , una contradicción. Por lo tanto, si el de , entonceszi=(xi−x¯) i=1,…,n y∈Rk (∗) z⊤iy=0 i=1,…,n {z1,…,zn} Rk α1,…,αn y=α1z1+⋯+αnzn y⊤y=α1z⊤1y+⋯+αnz⊤ny=0 y=0 zi Rk Q r a n k [ z 1 … z n ] = kEs positivo definitivo . Esta condición es equivalente a .rank[z1…zn]=k
fuente
Una matriz de covarianza correcta es siempre simétrica y positiva * semi * definida.
La covarianza entre dos variables se desafía como .σ(x,y)=E[(x−E(x))(y−E(y))]
Esta ecuación no cambia si cambia las posiciones de e . Por lo tanto, la matriz tiene que ser simétrica.yx y
También tiene que ser positivo * semi- * definido porque:
Siempre puede encontrar una transformación de sus variables de manera que la matriz de covarianza se convierta en diagonal. En la diagonal, encontrará las variaciones de sus variables transformadas que son cero o positivas, es fácil ver que esto hace que la matriz transformada sea semidefinida positiva. Sin embargo, dado que la definición de definición es invariante a la transformación, se deduce que la matriz de covarianza es semidefinida positiva en cualquier sistema de coordenadas elegido.
Cuando calcule su matriz de covarianza (es decir, cuando calcule su covarianza de muestra ) con la fórmula que indicó anteriormente, será obv. sigue siendo simétrico También tiene que ser semidefinido positivo (creo), porque para cada muestra, el pdf que le da a cada punto de muestra la misma probabilidad tiene la covarianza de la muestra como su covarianza (alguien por favor verifique esto), por lo que todo lo mencionado anteriormente todavía se aplica.
fuente
Las matrices de varianza-covarianza son siempre simétricas, ya que se puede demostrar a partir de la ecuación real para calcular cada término de dicha matriz.
Además, las matrices de varianza-covarianza son siempre matrices cuadradas de tamaño n, donde n es el número de variables en su experimento.
Los vectores propios de matrices simétricas son siempre ortogonales.
Con PCA, usted determina los valores propios de la matriz para ver si puede reducir el número de variables utilizadas en su experimento.
fuente
fuente
Para aquellos con antecedentes no matemáticos como yo que no captan rápidamente las fórmulas matemáticas abstractas, este es un ejemplo excelente de Excel para la respuesta más votada. La matriz de covarianza se puede derivar de otras maneras también.
fuente