¿Por qué los puntajes de los componentes principales no están correlacionados?

9

La suposición A es una matriz de datos centrados en la media. La matriz S=cov(A) es m×m , tiene m valores propios distintos y vectores propios s1 , s2 ... sm , que son ortogonales.

El -ésimo componente principal (algunas personas los llaman "puntajes") es el vector z i = A s i . En otras palabras, es una combinación lineal de las columnas de A , donde los coeficientes son los componentes de la i -ésimo vector propio de S .izi=AsiAiS

No entiendo por qué zi y zj no están correlacionadas para todo ij . ¿Se deduce del hecho de que si y sj son ortogonales? Seguramente no, porque puedo encontrar fácilmente una matriz B y un par de vectores ortogonales modo que y estén correlacionados.B x B yx,yBxBy

Ernest A
fuente
Una respuesta relacionada stats.stackexchange.com/a/110546/3277 .
ttnphns

Respuestas:

7

zizj=(Asi)(Asj)=siAAsj=(n1)siSsj=(n1)siλjsj=(n1)λjsisj=0.
ameba
fuente
1
Matemáticas: qué hermoso lenguaje.
Néstor
44
Esto significa que y z j son ortogonales. No correlacionado significa que esto debe ser cierto: ( z i - ˉ z i ) ( z j - ˉ z j ) = 0 . Supongo que de alguna manera ˉ z i = ˉ z j = 0 , y luego z i z j = 0 también implica que no están correlacionados. zizj(ziz¯i)(zjz¯j)=0z¯i=z¯j=0zizj=0
Ernest A
2
Buen punto, @Ernest. Las medias son de hecho cero, porque los datos se han centrado en la media (según su suposición). Entonces todas las proyecciones deben tener media cero.
ameba
2
@Jubbles porque , por lo tantoAA=(n-1)S. S=cov(A)=1n1AAAA=(n1)S
Ernest A
2
@Ernest, no pude resistirme al proporcionar una respuesta que no contiene texto, pero quizás debería agregar que la razón subyacente por la cual las PC no están correlacionadas es que su matriz de covarianza está dada por en la base de vectores propios, y en esta base S se convierte en diagonal - Ese es todo el punto de la descomposición propia. SS
ameba