En el análisis de componentes principales (PCA), uno puede elegir la matriz de covarianza o la matriz de correlación para encontrar los componentes (de sus respectivos vectores propios). Estos dan resultados diferentes (cargas de PC y puntajes), porque los vectores propios entre ambas matrices no son iguales. Tengo entendido que esto se debe al hecho de que un vector de datos sin procesar y su estandarización no pueden relacionarse a través de una transformación ortogonal. Matemáticamente, las matrices similares (es decir, relacionadas por transformación ortogonal) tienen los mismos valores propios, pero no necesariamente los mismos vectores propios.
Esto plantea algunas dificultades en mi mente:
¿Tiene sentido realmente PCA, si puede obtener dos respuestas diferentes para el mismo conjunto de datos inicial, ambas tratando de lograr lo mismo (= encontrar direcciones de máxima varianza)?
Cuando se utiliza el enfoque de matriz de correlación, cada variable se estandariza (escala) por su propia desviación estándar individual, antes de calcular las PC. ¿Cómo, entonces, todavía tiene sentido encontrar las direcciones de variación máxima si los datos ya han sido escalados / comprimidos de manera diferente de antemano? Sé que esa PCA basada en correlación es muy conveniente (las variables estandarizadas no tienen dimensiones, por lo que se pueden agregar sus combinaciones lineales; otras ventajas también se basan en el pragmatismo), pero ¿es correcto?
Me parece que la PCA basada en covarianza es la única verdaderamente correcta (incluso cuando las variaciones de las variables difieren mucho), y que siempre que no se pueda usar esta versión, tampoco se debe usar PCA basada en correlación.
Sé que existe este hilo: PCA en correlación o covarianza? - pero parece centrarse solo en encontrar una solución pragmática, que puede o no ser algebraicamente correcta.
fuente
Respuestas:
Espero que estas respuestas a sus dos preguntas calmen su preocupación:
Siguiente texto e imágenes añadidas por @whuber (se lo agradezco. Además, vea mi comentario a continuación)
Aquí hay un ejemplo bidimensional que muestra por qué todavía tiene sentido ubicar los ejes principales de datos estandarizados (que se muestran a la derecha). Tenga en cuenta que en el diagrama de la derecha la nube todavía tiene una "forma" a pesar de que las variaciones a lo largo de los ejes de coordenadas ahora son exactamente iguales (a 1.0). Del mismo modo, en dimensiones más altas, la nube de puntos estandarizada tendrá una forma no esférica, aunque las variaciones a lo largo de todos los ejes sean exactamente iguales (a 1.0). Los ejes principales (con sus valores propios correspondientes) describen esa forma. Otra forma de entender esto es notar que todo el cambio de escala y desplazamiento que se produce al estandarizar las variables ocurre solo en las direcciones de los ejes de coordenadas y no en las direcciones principales.
Lo que está sucediendo aquí es geométricamente tan intuitivo y claro que sería difícil caracterizar esto como una "operación de caja negra": por el contrario, la estandarización y la PCA son algunas de las cosas más básicas y rutinarias que hacemos con los datos en orden para entenderlos
Continuado por @ttnphns
¿Cuándo preferiría hacer PCA (o análisis factorial u otro tipo de análisis similar) en correlaciones (es decir, en variables estandarizadas en z) en lugar de hacerlo en covarianzas (es decir, en variables centradas)?
fuente
Hablando desde un punto de vista práctico, posiblemente impopular aquí, si tiene datos medidos en diferentes escalas, entonces vaya con la correlación ('escala de UV' si es un quimiométrico), pero si las variables están en la misma escala y el tamaño de ellas importa (por ejemplo, con datos espectroscópicos), entonces la covarianza (centrando solo los datos) tiene más sentido. PCA es un método dependiente de la escala y también la transformación de registros puede ayudar con datos muy sesgados.
En mi humilde opinión basada en 20 años de aplicación práctica de la quimiometría, tienes que experimentar un poco y ver qué funciona mejor para tu tipo de datos. Al final del día, debe poder reproducir sus resultados e intentar demostrar la previsibilidad de sus conclusiones. La forma de llegar a menudo es un caso de prueba y error, pero lo que importa es que lo que haces está documentado y es reproducible.
fuente
fuente
There seems little point
en PCA sobre correlaciones. Bueno, si necesita permanecer cerca de los datos sin procesar ("datos físicos", como extrañamente los llama), realmente no debe usar correlaciones ya que corresponden a otros datos ("distorsionados").X'X
matriz. Este formulario está incluso "más cerca" de los datos originales que cov-PCA porque no se está centrando las variables. Y los resultados suelen ser completamente diferentes . También podría hacer PCA en cosenos. Las personas hacen PCA en todas las versiones de la matriz SSCP , aunque las covarianzas o correlaciones se usan con mayor frecuencia.