Supongamos que es el vector que maximiza la varianza de la proyección de los datos con matriz de diseño .
Ahora, he visto materiales que se refieren a como el (primer) componente principal de los datos, que también es el vector propio con mayor valor propio.
Sin embargo, también he visto que el componente principal de los datos es .
Obviamente, y son cosas diferentes. ¿Alguien puede ayudarme aquí y decirme cuál es la diferencia entre estas dos definiciones de componentes principales?
pca
terminology
definition
mi nombre es Jeff
fuente
fuente
Respuestas:
Tiene toda la razón al observar que aunque (uno de los vectores propios de la matriz de covarianza, por ejemplo, el primero) y X u (proyección de los datos en el subespacio unidimensional atravesado por u ) son dos cosas diferentes, ambas de a menudo se les llama "componente principal", a veces incluso en el mismo texto.tu X u tu
Resumen de las dos convenciones:
Nota: Solo los vectores propios de la matriz de covarianza correspondientes a valores propios distintos de cero se pueden llamar direcciones / componentes principales. Si la matriz de covarianza es de rango bajo, tendrá uno o más valores propios cero; los vectores propios correspondientes (y las proyecciones correspondientes que son constantes cero) no deben llamarse direcciones / componentes principales. Vea alguna discusión en mi respuesta aquí.
fuente