¿Qué se llama exactamente "componente principal" en PCA?

Supongamos que es el vector que maximiza la varianza de la proyección de los datos con matriz de diseño . $u$ $X$

Ahora, he visto materiales que se refieren a como el (primer) componente principal de los datos, que también es el vector propio con mayor valor propio. $u$

Sin embargo, también he visto que el componente principal de los datos es . $X u$

Obviamente, y son cosas diferentes. ¿Alguien puede ayudarme aquí y decirme cuál es la diferencia entre estas dos definiciones de componentes principales? $u$ $Xu$

pca terminology definition mi nombre es Jeff
fuente

El vector propio u es la dirección del eje (los valores de u son los cosenos de dirección relativos a los ejes originales). Xu son los datos en sí, los valores del componente principal, las coordenadas en el eje antes mencionado).

ttnphns

Tiene toda la razón al observar que aunque (uno de los vectores propios de la matriz de covarianza, por ejemplo, el primero) y (proyección de los datos en el subespacio unidimensional atravesado por ) son dos cosas diferentes, ambas de a menudo se les llama "componente principal", a veces incluso en el mismo texto. $\mathbf{u}$ $\mathbf{X}\mathbf{u}$ $\mathbf{u}$

$\mathbf{u}_i$

$\mathbf{u}$ $\mathbf{X}\mathbf{u}$

$\mathbf u$

$\mathbf u$ $\mathbf{Xu}$

Resumen de las dos convenciones:

\begin{array}{ccc} Convención 1 & Convención 2 \\ tu & {\begin{cases} eje principal \\ dirección principal \\ vector componente principal \end{cases} & componente principal \\ X tu & componente principal & puntajes de componentes principales \end{array}

$\begin{array}{c|c|c} & \text{Convention 1} & \text{Convention 2} \\ \hline \mathbf u & \begin{cases}\text{principal axis}\\ \text{principal direction}\\ \text{principal component vector}\end{cases} & \text{principal component} \\ \mathbf{Xu} & \text{principal component} & \text{principal component scores} \end{array}$

Nota: Solo los vectores propios de la matriz de covarianza correspondientes a valores propios distintos de cero se pueden llamar direcciones / componentes principales. Si la matriz de covarianza es de rango bajo, tendrá uno o más valores propios cero; los vectores propios correspondientes (y las proyecciones correspondientes que son constantes cero) no deben llamarse direcciones / componentes principales. Vea alguna discusión en mi respuesta aquí.

ameba dice Reinstate Monica
fuente

La Convención 2 debería ser ilegalizada. Tiene la capacidad de crear un sinfín de confusión para los principiantes, ya que combina vectores base y componentes de vectores de datos con respecto a la base.

conjeturas de

¿Qué pasa con la definición de cargas? ¿Son las cargas los valores individuales del vector propio u?

makis

@sera Vea stats.stackexchange.com/questions/143905 y stats.stackexchange.com/questions/125684

amoeba dice Reinstate Monica

@amoeba gracias! una última pregunta. En SVD, para X = USVh (Vh: V transpuesta) si los vectores propios son las columnas de U, ¿puedo llamar a Vh como cargas?

makis

@sera No. Ver stats.stackexchange.com/questions/134282

dice Reinstate Monica

¿Qué se llama exactamente "componente principal" en PCA?

Respuestas: