Mientras leía sobre PCA, me encontré con la siguiente explicación:
Supongamos que tenemos un conjunto de datos donde cada punto de datos representa los puntajes de un solo estudiante en una prueba de matemáticas, una prueba de física, una prueba de comprensión de lectura y una prueba de vocabulario.
Encontramos los dos primeros componentes principales, que capturan el 90% de la variabilidad en los datos e interpretan sus cargas. Llegamos a la conclusión de que el primer componente principal representa la capacidad académica general, y el segundo representa un contraste entre la capacidad cuantitativa y la capacidad verbal.
El texto indica que las cargas de PC1 y PC2 son para PC1 y ( 0.5 , 0.5 , - 0.5 , - 0.5 ) para PC2, y ofrece la siguiente explicación:
[E] l primer componente es proporcional al puntaje promedio, y el segundo componente mide la diferencia entre el primer par de puntajes y el segundo par de puntajes.
No puedo entender lo que significa esta explicación.
Respuestas:
Las cargas (que no deben confundirse con los vectores propios) tienen las siguientes propiedades:
Extrajo 2 primeras PC de 4. Matriz de cargas y los valores propios:A
En este caso, ambos valores propios son iguales. Es un caso raro en el mundo real, dice que PC1 y PC2 tienen la misma "fuerza" explicativa.
Suponga que también calculó los valores de los componentes, laC X^=CA′ A X^ no son exactas, - hay un error (si los valores propios 3, 4 son no cero).
Nx2
matriz y los estandarizó en z (media = 0, st. Dev. = 1) dentro de cada columna. Entonces (como el punto 2 anterior dice), X = C A ' . Pero, debido a que sólo resta el 2 PCs de 4 (que carecen de 2 columnas más en A ) los valores de datos restaurada XOKAY. ¿Cuáles son los coeficientes para predecir componentes por variables ? Claramente, si estuviera lleno , estos serían B = ( A - 1 ) ′ . Con una matriz de carga no cuadrada, podemos calcularlos como B = A ⋅ d i a g ( e i g e n v a l u e s ) - 1 = ( A + ) ′ , dondeA B=(A−1)′ B=A⋅diag(eigenvalues)−1=(A+)′
4x4
diag(eigenvalues)
es la matriz diagonal cuadrada con los valores propios en su diagonal, y+
superíndice denota pseudoinverso. En tu caso:Entonces, si es una matriz de variables centradas originales (o variables estandarizadas, si está haciendo PCA basado en correlaciones en lugar de covarianzas), entonces C = X B ; C son puntajes estandarizados de componentes principales. Que en tu ejemplo es:X C=XB C
Nx4
Respuestas relacionadas mías:
Más detallado sobre cargas frente a vectores propios .
Cómo se calculan las puntuaciones de los componentes principales y las puntuaciones de los factores .
fuente