PCA en correlación o covarianza: ¿tiene sentido PCA en correlación? [cerrado]

32

En el análisis de componentes principales (PCA), uno puede elegir la matriz de covarianza o la matriz de correlación para encontrar los componentes (de sus respectivos vectores propios). Estos dan resultados diferentes (cargas de PC y puntajes), porque los vectores propios entre ambas matrices no son iguales. Tengo entendido que esto se debe al hecho de que un vector de datos sin procesar y su estandarización no pueden relacionarse a través de una transformación ortogonal. Matemáticamente, las matrices similares (es decir, relacionadas por transformación ortogonal) tienen los mismos valores propios, pero no necesariamente los mismos vectores propios.XZ

Esto plantea algunas dificultades en mi mente:

  1. ¿Tiene sentido realmente PCA, si puede obtener dos respuestas diferentes para el mismo conjunto de datos inicial, ambas tratando de lograr lo mismo (= encontrar direcciones de máxima varianza)?

  2. Cuando se utiliza el enfoque de matriz de correlación, cada variable se estandariza (escala) por su propia desviación estándar individual, antes de calcular las PC. ¿Cómo, entonces, todavía tiene sentido encontrar las direcciones de variación máxima si los datos ya han sido escalados / comprimidos de manera diferente de antemano? Sé que esa PCA basada en correlación es muy conveniente (las variables estandarizadas no tienen dimensiones, por lo que se pueden agregar sus combinaciones lineales; otras ventajas también se basan en el pragmatismo), pero ¿es correcto?

Me parece que la PCA basada en covarianza es la única verdaderamente correcta (incluso cuando las variaciones de las variables difieren mucho), y que siempre que no se pueda usar esta versión, tampoco se debe usar PCA basada en correlación.

Sé que existe este hilo: PCA en correlación o covarianza? - pero parece centrarse solo en encontrar una solución pragmática, que puede o no ser algebraicamente correcta.

Lucozade
fuente
44
Voy a ser honesto y decirte que dejé de leer tu pregunta en algún momento. PCA tiene sentido. Sí, los resultados pueden ser diferentes dependiendo de si elige usar la correlación o la matriz de varianza / covarianza. Se prefiere la PCA basada en correlación si sus variables se miden en diferentes escalas, pero no desea que esto domine el resultado. Imagínese si tiene una serie de variables que van de 0 a 1 y luego algunas que tienen valores muy grandes (relativamente hablando, como 0 a 1000), dominará la gran varianza asociada con el segundo grupo de variables.
Patrick
44
Pero ese es el caso con muchas otras técnicas también y creo que el punto de Patrick es razonable. También fue simplemente un comentario, no hay necesidad de volverse agresivo. En términos generales, ¿por qué asumirías que debería haber una verdadera forma "algebraicamente" correcta de abordar el problema?
Gala
55
Tal vez esté pensando en PCA de la manera incorrecta: es solo una transformación, por lo que no hay duda de que es correcto o incorrecto, o que se basa en suposiciones sobre el modelo de datos, a diferencia, por ejemplo, de la regresión o el análisis factorial.
Scortchi - Restablece a Monica
55
El quid de este asunto parece descansar en un malentendido de lo que hace la estandarización y cómo funciona la PCA. Esto es comprensible, porque una buena comprensión de PCA requiere la visualización de formas de dimensiones superiores. Sostendría que esta pregunta, como muchas otras preguntas basadas en algún tipo de malentendido, es por lo tanto una buena y debe permanecer abierta, porque su (s) respuesta (s) puede revelar verdades que muchas personas podrían no haber apreciado completamente antes.
whuber
66
PCA no "reclama" nada. Las personas hacen afirmaciones sobre PCA y, de hecho, lo usan de manera muy diferente según el campo. Algunos de estos usos pueden ser tontos o cuestionables, pero no parece muy esclarecedor suponer que una sola variante de la técnica debe ser la "algebraicamente correcta" sin referencia al contexto o al objetivo del análisis.
Gala

Respuestas:

29

Espero que estas respuestas a sus dos preguntas calmen su preocupación:

  1. Una matriz de correlación es una matriz de covarianza de los datos estandarizados (es decir, no solo centrados sino también reescalados); es decir, una matriz de covarianza (como si) de otro conjunto de datos diferente. Por lo tanto, es natural y no debería molestarle que los resultados difieran.
  2. Sí, tiene sentido encontrar las direcciones de varianza máxima con datos estandarizados: son las direcciones de, por así decirlo, "correlación", no "covarianza"; es decir, después del efecto de las variaciones desiguales, de las variables originales, en la forma de la nube de datos multivariados se retiró.

Siguiente texto e imágenes añadidas por @whuber (se lo agradezco. Además, vea mi comentario a continuación)

Aquí hay un ejemplo bidimensional que muestra por qué todavía tiene sentido ubicar los ejes principales de datos estandarizados (que se muestran a la derecha). Tenga en cuenta que en el diagrama de la derecha la nube todavía tiene una "forma" a pesar de que las variaciones a lo largo de los ejes de coordenadas ahora son exactamente iguales (a 1.0). Del mismo modo, en dimensiones más altas, la nube de puntos estandarizada tendrá una forma no esférica, aunque las variaciones a lo largo de todos los ejes sean exactamente iguales (a 1.0). Los ejes principales (con sus valores propios correspondientes) describen esa forma. Otra forma de entender esto es notar que todo el cambio de escala y desplazamiento que se produce al estandarizar las variables ocurre solo en las direcciones de los ejes de coordenadas y no en las direcciones principales.

Figura

Lo que está sucediendo aquí es geométricamente tan intuitivo y claro que sería difícil caracterizar esto como una "operación de caja negra": por el contrario, la estandarización y la PCA son algunas de las cosas más básicas y rutinarias que hacemos con los datos en orden para entenderlos


Continuado por @ttnphns

¿Cuándo preferiría hacer PCA (o análisis factorial u otro tipo de análisis similar) en correlaciones (es decir, en variables estandarizadas en z) en lugar de hacerlo en covarianzas (es decir, en variables centradas)?

  1. Cuando las variables son diferentes unidades de medida. Eso está claro.
  2. Cuando uno quiere que el análisis refleje asociaciones lineales justas y únicas . Pearson r no es solo la covarianza entre las variables no escaladas (varianza = 1); Es repentinamente la medida de la fuerza de la relación lineal, mientras que el coeficiente de covarianza habitual es receptivo a la relación lineal y monotónica.
  3. Cuando se quiere que las asociaciones reflejen una desviación relativa (de la media) en lugar de una desviación cruda. La correlación se basa en distribuciones, sus márgenes, mientras que la covarianza se basa en la escala de medición original. Si tuviera que analizar los factores de los perfiles psicopatológicos de los pacientes según lo evaluado por los psiquiatras en algún cuestionario clínico que consiste en elementos de tipo Likert, preferiría las covarianzas. Porque no se espera que los profesionales distorsionen la escala de calificación intrapsíquicamente. Si, por otro lado, tuviera que analizar los autorretratos de los pacientes con el mismo cuestionario, probablemente elegiría las correlaciones. Debido a que se espera que la evaluación de los legos sea relativa a "otras personas", "la mayoría", "desviación permisible" lupa que "encoge" o "estira" la escala de calificación para uno.
ttnphns
fuente
1
1. Lo siento, pero esto molesta mucho. Para un individuo externo, la estandarización es una operación de caja negra, parte del preacondicionamiento de datos de PCA (también en ICA). Quiere una respuesta para sus datos de entrada (sin procesar), especialmente si se relaciona con datos físicos (dimensionados) para los cuales la salida de PCA también debe interpretarse físicamente (es decir, en términos de variables no estandarizadas).
Lucozade
1
Su última revisión parece ser una reafirmación de que "la PCA basada en covarianza es la única verdaderamente correcta". Como la totalidad de las respuestas hasta ahora son en esencia "No; forma incorrecta de pensarlo, y he aquí por qué" es difícil saber cómo espera dirigir la discusión contra un desacuerdo tan abrumador.
Nick Cox
44
@Lucozade: Estaba confundido acerca de su descripción de su aplicación: - ¿Cómo recomienda PCA algo? ¿Cómo midiste el rendimiento ? Del mismo modo para su último comentario: - ¿El óptimo para qué?
Scortchi - Restablece a Monica
55
@Lucozade: De hecho, escucha por favor lo que dijo Scortchi, parece que sigues persiguiendo fantasmas. PCA es simplemente una forma especial de rotación de datos en el espacio. Siempre hace de manera óptima lo que hace con los datos de entrada. El dilema de cov-corr es pragmático, arraigado en el preprocesamiento de datos y resuelto a ese nivel, no a nivel de PCA.
ttnphns
1
@Lucozade: Sería mi opinión (no experta) basada en su respuesta a mí que en su necesidad específica, tiene razón en querer PCA basada en COV. Una vez más, todas sus variables son homogéneas en términos de datos / tipo de medición (mismo tipo de máquina y todos los datos en voltios). Para mí, su ejemplo es claramente un caso en el que cov-PCA es correcto, pero tenga en cuenta que este no es siempre el caso, y creo que este es el punto importante de este hilo (la elección de cor v. Cov es específica de cada caso y necesita ser determinado por la persona que entiende mejor los datos y la aplicación). ¡Buena suerte con tu investigación!
Patrick
6

Hablando desde un punto de vista práctico, posiblemente impopular aquí, si tiene datos medidos en diferentes escalas, entonces vaya con la correlación ('escala de UV' si es un quimiométrico), pero si las variables están en la misma escala y el tamaño de ellas importa (por ejemplo, con datos espectroscópicos), entonces la covarianza (centrando solo los datos) tiene más sentido. PCA es un método dependiente de la escala y también la transformación de registros puede ayudar con datos muy sesgados.

En mi humilde opinión basada en 20 años de aplicación práctica de la quimiometría, tienes que experimentar un poco y ver qué funciona mejor para tu tipo de datos. Al final del día, debe poder reproducir sus resultados e intentar demostrar la previsibilidad de sus conclusiones. La forma de llegar a menudo es un caso de prueba y error, pero lo que importa es que lo que haces está documentado y es reproducible.

marca
fuente
44
El enfoque práctico que parece defender aquí se reduce a, cuando se justifican tanto las covarianzas como las correlaciones, "probar ambas y ver qué funciona mejor". Esa postura empírica pura oculta el hecho de que cualquier elección va con sus propios supuestos o paradigmas sobre la realidad de la que el investigador debe estar al tanto de antemano, incluso si comprende que prefiere uno de ellos de manera totalmente arbitraria. Seleccionar "lo que funciona mejor" es capitalizar la sensación de placer, la narcomania.
ttnphns
-2

Xyos2(X1/ /s1)+(X2/ /s2)=(X1+X2)/ /sX1+X2s1s2grados Parece poco útil entonces maximizar la varianza de su combinación lineal. En ese caso, PCA ofrece una solución para un conjunto diferente de datos, mediante el cual cada variable se escala de manera diferente. Si luego no se estandariza (cuando se usa corr_PCA), entonces eso puede ser correcto y necesario; pero si solo toma la solución corr_PCA sin procesar tal como está y se detiene allí, obtendría una solución matemática, pero no relacionada con los datos físicos. Como la no estandarización posterior parece obligatoria como mínimo (es decir, 'estirar' los ejes por las desviaciones estándar inversas), cov_PCA podría haberse utilizado para comenzar. Si todavía estás leyendo, ¡estoy impresionado! Por ahora, termino citando el libro de Jolliffe, p. 42, que es la parte que me preocupa:"Sin embargo, no debe olvidarse que las PC de matriz de correlación, cuando se vuelven a expresar en términos de las variables originales, siguen siendo funciones lineales de x que maximizan la varianza con respecto a las variables estandarizadas y no con respecto a las variables originales". Si cree que estoy interpretando esto o sus implicaciones erróneamente, este extracto puede ser un buen punto de enfoque para una discusión más a fondo.

Lucozade
fuente
3
Es tan divertido que su propia respuesta, que está en sintonía con todo lo que la gente aquí intentaba transmitirle, sigue sin resolverse para usted. Todavía discute There seems little pointen PCA sobre correlaciones. Bueno, si necesita permanecer cerca de los datos sin procesar ("datos físicos", como extrañamente los llama), realmente no debe usar correlaciones ya que corresponden a otros datos ("distorsionados").
ttnphns
2
(Cont.) La cita de Jolliffe afirma que las PC obtenidas en correlaciones serán siempre ellas mismas y no se pueden "volver" a convertir en PC en covarianzas, aunque puede volver a expresarlas como combinaciones lineales de las variables originales. Por lo tanto, Jolliffe enfatiza la idea de que los resultados de PCA dependen completamente del tipo de preprocesamiento utilizado y que no existen PC "verdaderas", "genuinas" o "universales" ...
ttnphns
2
(Cont.) Y de hecho, varias líneas debajo de Jolliffe hablan de otra "forma" de PCA - PCA en X'Xmatriz. Este formulario está incluso "más cerca" de los datos originales que cov-PCA porque no se está centrando las variables. Y los resultados suelen ser completamente diferentes . También podría hacer PCA en cosenos. Las personas hacen PCA en todas las versiones de la matriz SSCP , aunque las covarianzas o correlaciones se usan con mayor frecuencia.
ttnphns
3
Subyacente a esta respuesta hay una suposición implícita de que las unidades en las que se miden los datos tienen un significado intrínseco. Ese es raramente el caso: podemos elegir medir la longitud en Angstroms, parsecs o cualquier otra cosa, y el tiempo en picosegundos o milenios, sin alterar el significado de los datos ni un ápice. Los cambios realizados al pasar de la covarianza a la correlación son simplemente cambios de unidades (que, por cierto, son particularmente sensibles a los datos periféricos). Esto sugiere que el problema no es la covarianza versus la correlación, sino más bien encontrar formas fructíferas de expresar los datos para el análisis.
whuber
3
@ttnphns Me quedaré con el "simplemente", gracias. Independientemente de si las implicaciones son "profundas", el hecho es que la estandarización de una variable literalmente es una reexpresión afín de sus valores: un cambio en sus unidades de medida. La importancia de esta observación radica en sus implicaciones para algunas afirmaciones que aparecen en este hilo, de las cuales la más destacada es "PCA basada en covarianza es la única verdaderamente correcta". Cualquier concepción de corrección que en última instancia depende de un aspecto esencialmente arbitrario de los datos, cómo los escribimos, no puede ser correcta.
whuber