En PCA, divide la matriz de covarianza (o correlación) en parte de escala (valores propios) y parte de dirección (vectores propios). Entonces puede dotar a los vectores propios con la escala: cargas . Por lo tanto, las cargas se vuelven comparables por magnitud con las covarianzas / correlaciones observadas entre las variables, porque lo que se había extraído de la covarianza de las variables ahora regresa, en forma de covarianza entre las variables y los componentes principales. En realidad, las cargas son las covarianzas / correlaciones entre las variables originales y los componentes a escala unitaria . Esta respuesta muestra geométricamente qué son las cargas y cuáles son los coeficientes que asocian componentes con variables en PCA o análisis factorial.
Cargas :
Ayudarlo a interpretar los componentes o factores principales; Porque son los pesos de combinación lineal (coeficientes) mediante los cuales los componentes o factores a escala unitaria definen o "cargan" una variable .
(El vector propio es solo un coeficiente de transformación o proyección ortogonal , carece de "carga" dentro de su valor. "Carga" es (información de la cantidad de) varianza, magnitud. Las PC se extraen para explicar la varianza de las variables. las variaciones de (= explicado por) PC. Cuando multiplicamos el vector propio por la raíz cuadrada del valor eiven "cargamos" el coeficiente desnudo por la cantidad de varianza. Por esa virtud hacemos que el coeficiente sea la medida de asociación , variabilidad.)
Las cargas a veces se "giran" (por ejemplo, varimax) después para facilitar la interpretación ( ver también );
Son las cargas las que "restauran" la matriz de covarianza / correlación original (ver también este hilo que discute los matices de PCA y FA a ese respecto);
Mientras que en PCA puede calcular valores de componentes tanto de vectores propios como de cargas, en el análisis factorial calcula las puntuaciones de los factores a partir de las cargas .
Y, sobre todo, la matriz de carga es informativa: sus sumas verticales de cuadrados son los valores propios, las variaciones de los componentes, y sus sumas horizontales de cuadrados son porciones de las variaciones de las variables que los componentes "explican".
La carga reescalada o estandarizada es la carga dividida por el st de la variable. desviación; Es la correlación. (Si su PCA es PCA basada en correlación, la carga es igual a la reescalada, porque la PCA basada en correlación es la PCA en variables estandarizadas). La carga cuadrada reescalada tiene el significado de la contribución de un pr. componente en una variable; si es alto (cercano a 1) la variable está bien definida por ese componente solo.
Un ejemplo de cálculos realizados en PCA y FA para que los vea .
Los vectores propios son cargas a escala unitaria; y son los coeficientes (los cosenos) de la transformación ortogonal (rotación) de variables en componentes principales o hacia atrás. Por lo tanto, es fácil calcular los valores de los componentes (no estandarizados) con ellos. Además de eso, su uso es limitado. El valor del vector propio al cuadrado tiene el significado de la contribución de una variable en un pr. componente; si es alto (cercano a 1), el componente está bien definido solo por esa variable.
Aunque los vectores propios y las cargas son simplemente dos formas diferentes de normalizar las coordenadas de los mismos puntos que representan columnas (variables) de los datos en un biplot , no es una buena idea mezclar los dos términos. Esta respuesta explica por qué. Ver también .
R
usuarios en este sitio han llamado "cargas" de los vectores propios de PCA que probablemente podrían provenir de la documentación de la función.Parece haber una gran confusión sobre las cargas, los coeficientes y los vectores propios. La carga de palabras proviene del análisis factorial y se refiere a los coeficientes de la regresión de la matriz de datos sobre los factores. No son los coeficientes que definen los factores. Véase, por ejemplo, Mardia, Bibby y Kent u otros libros de texto de estadísticas multivariantes.
En los últimos años, la carga de palabras se ha utilizado para indicar los coeficientes de las PC. Aquí parece que solía indicar los coeficientes multiplicados por el sqrt de los valores propios de la matriz. Estas no son cantidades comúnmente utilizadas en PCA. Los componentes principales se definen como la suma de las variables ponderadas con coeficientes de norma unitaria. De esta manera, las PC tienen una norma igual al valor propio correspondiente, que a su vez es igual a la varianza explicada por el componente.
Es en el Análisis Factorial donde se requiere que los factores tengan la norma de la unidad. Pero FA y PCA son completamente diferentes. La rotación del coeficiente de las PC rara vez se realiza porque destruye la optimización de los componentes.
En FA, los factores no están definidos de manera única y pueden estimarse de diferentes maneras. Las cantidades importantes son las cargas (las verdaderas) y las comunalidades que se utilizan para estudiar la estructura de la matriz de covarianza. PCA o PLS deben usarse para estimar componentes.
fuente
L
que se usa para escribir la matriz de covarianza comoS = LL' + C
dondeC
está una matriz diagonal. no tienen nada que ver con los coeficientes de las PC.they have nothing to do with the PCs' coefficients
Calculamos cargas en PCA como lo hacemos en FA. Los modelos son diferentes, pero el significado de las cargas es similar en ambos métodos.Cargas = Eigenvectores ortonormales⋅ Raíz cuadrada de (valores Eigen absolutos) Aquí los vectores eigen ortonormales (es decir, el término Eigenvector orthonormal) proporciona una dirección y el término Raíz cuadrada de (valores Eigen absolutos) proporciona el valor.
Por lo general, la gente dice que los signos en las cargas no son importantes, pero su magnitud es importante. Pero si invertimos la dirección de uno de los vectores propios (manteniendo el signo de otros vectores propios tal como son), los puntajes de los factores cambiarán. Por lo tanto, el análisis posterior se verá afectado significativamente.
No pude obtener una solución satisfactoria a esta ambigüedad hasta ahora.
fuente
Parece haber cierta confusión sobre este asunto, por lo que proporcionaré algunas observaciones y un indicador de dónde se puede encontrar una excelente respuesta en la literatura.
En primer lugar, PCA y Factor Analysis (FA) están relacionados. En general, los componentes principales son ortogonales por definición, mientras que los factores, la entidad análoga en FA, no lo son. En pocas palabras, los componentes principales abarcan el espacio de factores de una manera arbitraria pero no necesariamente útil debido a que se derivan del análisis propio puro de los datos. Los factores, por otro lado, representan entidades del mundo real que son solo ortogonales (es decir, no correlacionadas o independientes) por coincidencia.
Digamos que tomamos s de observaciones de cada uno de l sujetos. Estos se pueden organizar en una matriz de datos D que tiene s filas y l columnas. D puede descomponerse en una matriz de puntuación S y una matriz de carga L de modo que D = SL . S tendrá s filas, y L tendrá l columnas, siendo la segunda dimensión de cada una el número de factores n . El propósito del análisis factorial es descomponer Dde tal manera que revele los puntajes y factores subyacentes. Las cargas de L nos dicen que la proporción de cada puntuación que componen las observaciones en D .
En PCA, L tiene los vectores propios de la matriz de correlación o covarianza de D como sus columnas. Estos están dispuestos convencionalmente en orden descendente de los valores propios correspondientes. El valor de n , es decir, el número de componentes principales significativos para retener en el análisis y, por lo tanto, el número de filas de L , generalmente se determina mediante el uso de un gráfico de pantalla de los valores propios o uno de los muchos otros métodos que se encuentran en la literatura. Las columnas de S en PCA forman los n abstractos principales componentes propios. El valor de n es la dimensionalidad subyacente del conjunto de datos.
El objeto del análisis factorial es transformar los componentes abstractos en factores significativos mediante el uso de una matriz de transformación T tal que D = STT -1 L . ( ST ) es la matriz de puntuación transformada y ( T -1 L ) es la matriz de carga transformada.
La explicación anterior sigue aproximadamente la notación de Edmund R. Malinowski de su excelente Factor Analysis en Química . Recomiendo los capítulos iniciales como introducción al tema.
fuente
Estoy un poco confundido por esos nombres, y busqué en el libro llamado "Métodos estadísticos en la ciencia atmosférica", y me dio un resumen de la variada terminología de PCA, aquí están las capturas de pantalla en el libro, espero que ayude.
fuente