¿Cómo se aplica el "Teorema fundamental del análisis factorial" a PCA, o cómo se definen las cargas de PCA?

Actualmente estoy pasando por un conjunto de diapositivas que tengo para el "análisis factorial" (PCA por lo que puedo decir).

En él, se deriva el "teorema fundamental del análisis factorial" que afirma que la matriz de correlación de los datos que entran en el análisis ( ) se puede recuperar utilizando la matriz de cargas factoriales ( ): $\bf R$ $\bf A$

R = UN {UN}^{⊤}

$\bf R = AA^\top$

Esto sin embargo me confunde. En PCA, la matriz de "cargas factoriales" viene dada por la matriz de vectores propios de la matriz de covarianza / correlación de los datos (dado que asumimos que los datos han sido estandarizados, son los mismos), con cada vector propio escalado para tener longitud uno. Esta matriz es ortogonal, por lo tanto que es en general no es igual a . $\bf AA^\top = I$ $\bf R$

pca factor-analysis terminology definition usuario2249626
fuente

Además de la respuesta de @ ameeba , mira en mi respuesta abordando la ambigüedad terminológica. No recomiendo llamar a la matriz de vectores propios A(que son cargas), por razones de claridad. La matriz del vector propio (lado derecho) generalmente está etiquetada V(porque R=USV'por svd), no A. Otro nombre equivalente (que proviene de la terminología biplot) para vectores propios es "coordenadas estándar", y para cargas es "coordenadas principales".

ttnphns

("coordenadas estándar", porque la inercia, o escala de los valores propios, es la magnitud de la unidad al dotarlas; "coordenadas principales", porque es la magnitud original original al

dotarlas

Respuestas:

Esta es una pregunta razonable (+1) que se deriva de la ambigüedad terminológica y la confusión.

En el contexto de PCA, las personas a menudo llaman "cargas" a los ejes principales (vectores propios de la matriz de covarianza / correlación). Esta es una terminología descuidada. Lo que debería llamarse "cargas" en PCA, son ejes principales escalados por las raíces cuadradas de los respectivos valores propios. Entonces el teorema al que te refieres se mantendrá.

R = V S V^{⊤}

$\mathbf R = \mathbf V \mathbf S \mathbf V^\top$ donde

V

$\mathbf V$ son vectores propios (ejes principales) y

S

$\mathbf S$ es una matriz diagonal de valores propios, y si definimos cargas como

UN = V S^{1 / / 2},

$\mathbf A = \mathbf V \mathbf S^{1/2},$ entonces uno puede ver fácilmente que

R = UN {UN}^{⊤} .

$\mathbf R = \mathbf A \mathbf A^\top.$ Además, el mejor rango

r

$r$ la aproximación a la matriz de correlación viene dada por la primera

r

$r$ Cargas de PCA:

R \approx {UN}_{r} {UN}_{r}^{⊤} .

$\mathbf R \approx \mathbf A_r \mathbf A_r^\top.$

Consulte mi respuesta aquí para obtener más información sobre la reconstrucción de matrices de covarianza con análisis factorial y cargas de PCA.

ameba dice reinstalar Monica
fuente