¿Cuál es la diferencia entre "cargas" y "cargas de correlación" en PCA y PLS?

Advertencia: Rutiliza el término "cargas" de manera confusa. Lo explico a continuación.

Considere el conjunto de datos con variables (centradas) en columnas y puntos de datos en filas. Realizar PCA de este conjunto de datos equivale a una descomposición de valores singulares . Las columnas de son componentes principales ("puntajes" de PC) y las columnas de son ejes principales. La matriz de covarianza está dada por , por lo que los ejes principales son vectores propios de la matriz de covarianza. $\mathbf{X}$ $N$ $\mathbf{X} = \mathbf{U} \mathbf{S} \mathbf{V}^\top$ $\mathbf{US}$ $\mathbf{V}$ $\frac{1}{N-1}\mathbf{X}^\top\mathbf{X} = \mathbf{V}\frac{\mathbf{S}^2}{{N-1}}\mathbf{V}^\top$ $\mathbf{V}$

Las "cargas" se definen como columnas de , es decir, son vectores propios escalados por las raíces cuadradas de los respectivos valores propios. ¡Son diferentes de los vectores propios! Vea mi respuesta aquí para la motivación. $\mathbf{L}=\mathbf{V}\frac{\mathbf S}{\sqrt{N-1}}$

Usando este formalismo, podemos calcular la matriz de covarianza cruzada entre las variables originales y las PC estandarizadas: es decir, está dado por cargas. La matriz de correlación cruzada entre variables originales y PC está dada por la misma expresión dividida por las desviaciones estándar de las variables originales (por definición de correlación). Si las variables originales se estandarizaron antes de realizar PCA (es decir, PCA se realizó en la matriz de correlación), todas son iguales a . En este último caso, la matriz de correlación cruzada nuevamente viene dada simplemente por .

\frac{1}{N - 1} X^{⊤} (\sqrt{N - 1} U) = \frac{1}{\sqrt{N - 1}} V S U^{⊤} U = \frac{1}{\sqrt{N - 1}} V S = L,

$\frac{1}{N-1}\mathbf{X}^\top(\sqrt{N-1}\mathbf{U}) = \frac{1}{\sqrt{N-1}}\mathbf{V}\mathbf{S}\mathbf{U}^\top\mathbf{U} = \frac{1}{\sqrt{N-1}}\mathbf{V}\mathbf{S}=\mathbf{L},$

1

$1$

L

$\mathbf{L}$

Para aclarar la confusión terminológica: lo que el paquete R llama "cargas" son ejes principales, y lo que llama "cargas de correlación" son (para PCA realizadas en la matriz de correlación) de hecho cargas. Como te diste cuenta, solo difieren en la escala. Lo que es mejor trazar, depende de lo que quieras ver. Considere un siguiente ejemplo simple:

Biplots

La subparcela izquierda muestra un conjunto de datos 2D estandarizado (cada variable tiene varianza unitaria), estirada a lo largo de la diagonal principal. La subtrama intermedia es un biplot : es un diagrama de dispersión de PC1 frente a PC2 (en este caso, simplemente el conjunto de datos girado 45 grados) con filas de trazadas en la parte superior como vectores. Tenga en cuenta que y vectores son separados 90 grados; Te dicen cómo están orientados los ejes originales. La subtrama derecha es el mismo biplot, pero ahora los vectores muestran filas de . Tenga en cuenta que ahora los vectores e tienen un ángulo agudo entre ellos; te dicen cuántas variables originales están correlacionadas con las PC, y tanto como $\mathbf{V}$ $x$ $y$ $\mathbf{L}$ $x$ $y$ $x$ $y$ son mucho más fuertes correlacionados con PC1 que con PC2. Yo supongo que la mayoría de la gente lo más a menudo prefieren ver el tipo de biplots.

Nótese que en ambos casos las dos y vectores tienen unidad de longitud. Esto sucedió solo porque el conjunto de datos era 2D para comenzar; en caso de que haya más variables, los vectores individuales pueden tener una longitud inferior a , pero nunca pueden alcanzar fuera del círculo unitario. Prueba de este hecho lo dejo como ejercicio. $x$ $y$ $1$

Veamos ahora otra vez el conjunto de datos mtcars . Aquí hay un biplot del PCA realizado en la matriz de correlación:

mtcars pca biplot

Las líneas negras se trazan usando , las líneas rojas se trazan usando . $\mathbf{V}$ $\mathbf{L}$

Y aquí hay un biplot del PCA realizado en la matriz de covarianza:

mtcars pca biplot

Aquí escalé todos los vectores y el círculo unitario en , porque de lo contrario no sería visible (es un truco de uso común). Nuevamente, las líneas negras muestran filas de , y las líneas rojas muestran correlaciones entre variables y PC (que ya no son dadas por , ver arriba). Tenga en cuenta que solo dos líneas negras son visibles; Esto se debe a que dos variables tienen una varianza muy alta y dominan el conjunto de datos mtcars . Por otro lado, se pueden ver todas las líneas rojas. Ambas representaciones transmiten información útil. $100$ $\mathbf{V}$ $\mathbf{L}$

PD Hay muchas variantes diferentes de biplots PCA, vea mi respuesta aquí para obtener más explicaciones y una descripción general: Posicionar las flechas en un biplot PCA . El biplot más bonito jamás publicado en CrossValidated se puede encontrar aquí .

ameba dice reinstalar Monica
fuente

Aunque esta es una muy buena respuesta (+1), tiene una debilidad didáctica, ya que inicialmente coloca las variables en filas de X, no en columnas de X, como tradicionalmente iría en conjuntos de datos / ejemplos estadísticos. Debido a esa transposición, los vectores U se convierten en la respuesta para ser sobre variables y V sobre casos. La mayoría de las personas que conocen PCA están acostumbradas al diseño opuesto; entonces dificulta la percepción, un poco.

ttnphns

Podría recomendar enfatizar verbalmente la "moraleja" de la diferencia entre el "eje biplot" y el "biplot de carga" en el escaneo. En el primero, la variabilidad (= escala, = magnidute, = inercia, = masa) no se presenta: se almacena en valores propios. En el segundo, se entregó completamente a los vectores propios que representan variables; en virtud de ese "revivir" las variables se convierten en una nube de datos significativa de dos puntos, o vectores, con longitudes específicas desde el origen y ángulo específico. Así es como "de repente" nos encontramos en el espacio temático .

ttnphns

Gracias @ttnphns, ambos buenos puntos. Con respecto a las filas / columnas de : de hecho, prefiero el diseño que utilicé. Un único punto de datos generalmente se escribe como un vector de columna . Una matriz actúe sobre ella se escribiría como . Si ahora es una colección de vectores de columna apilados, entonces puedo escribir , lo cual es conveniente. Si, en cambio, tiene muestras en filas, como usted defiende, entonces necesitaría escribir , lo que se ve raro. Pero admito que muchos libros de texto usan esta convención (no estoy seguro de por qué).

X

$\mathbf X$

x

$\mathbf x$

U

$\mathbf U$

U x

$\mathbf U \mathbf x$

X

$\mathbf X$

U X

$\mathbf U\mathbf X$

X

$\mathbf X$

X U^{⊤}

$\mathbf X \mathbf U^\top$

ameba dice Reinstate Monica

Esto es, por supuesto, una cuestión de gustos. Tenga en cuenta, sin embargo, que la gran mayoría de los programas estadísticos muestran hojas de cálculo de datos como cases X variables. Por tradición, entonces, el álgebra lineal en la mayoría de los textos de análisis estadísticos hace del caso un vector fila. ¿Quizás en el aprendizaje automático es diferente?

ttnphns

@user_anon No, esta respuesta considera PCA estándar, sin ningún factor de rotación.

ameba dice Reinstate Monica

¿Cuál es la diferencia entre "cargas" y "cargas de correlación" en PCA y PLS?

Respuestas: