¿CCA entre dos conjuntos de datos idénticos es equivalente a PCA en este conjunto de datos?

9

Al leer Wikipedia sobre el análisis de correlación canónica (CCA) para dos vectores aleatorios e , me preguntaba si la respuesta de componentes principales (PCA) es la misma que CCA cuando ?XYX=Y

Tim
fuente
Por favor, aclare: 1) vectors X and YEs que dos variables (columnas de datos) o dos casos (filas); dado que vamos a realizar los análisis de variables. 2) X and Y are the same¿Querías decir que X = Y o de alguna otra manera?
ttnphns
@ttnphns: 1) X e Y son dos vectores aleatorios. Son dos vectores de variables aleatorias, dos conjuntos de columnas de datos, no dos casos (filas). 2) X=Y .
Tim
Si cada conjunto consta de una sola variable, hay una correlación canónica que es exactamente la Pearson r entre ellos; y CCA se convierte en regresión lineal de X por Y y viceversa. La descomposición de esa r mediante PCA es otra historia. PCA y CCA son diferentes análisis.
ttnphns
Hola, @Tim, me pregunto si mi respuesta fue útil o si aún tienes más preguntas. Si es así, me complacería aclararlo.
ameba
@amoeba: Sí, lo es. No tengo más preguntas en este momento, y leeré tu respuesta más tarde. Gracias por su respuesta. + 1
Tim

Respuestas:

6

Let sean y sea matrices de datos, que representan dos conjuntos de datos con muestras (es decir, observaciones de sus vectores fila aleatorias y ) en cada uno de ellos.Xn×p1Yn×p2nXY

CCA busca una combinación lineal de variables en y una combinación lineal de variables en modo que estén correlacionadas al máximo entre sí; luego busca el siguiente par, bajo una restricción de correlación cero con el primer par; etc.p1Xp2Y

En el caso (y ), cualquier combinación lineal en un conjunto de datos trivialmente tendrá correlación con la misma combinación lineal en otro conjunto de datos. Por lo tanto, todos los pares CCA tendrán correlaciones , y el orden de los pares es arbitrario. La única restricción restante es que las combinaciones lineales no deben estar correlacionadas entre sí. Hay infinitas formas de elegir combinaciones lineales no correlacionadas (tenga en cuenta que los pesos no tienen que ser ortogonales en el espacio -dimensional) y cualquiera de ellos producirá una solución CCA válida. De hecho, PCA proporciona una de estas formas, ya que dos PC tienen correlación cero.X=Yp1=p2=p11pp

Por lo tanto, la solución PCA será una solución CCA válida, pero hay un número infinito de soluciones CCA equivalentes en este caso.


Matemáticamente, CCA busca los vectores singulares derecho ( ) e izquierdo ( ) de , que en este caso es igual a , y cualquier vector es un vector propio. Entonces puede ser arbitrario. A continuación, CCA obtiene los pesos de combinación lineal como y . En este caso, se reduce a tomar una base arbitraria y transformarla con , que de hecho producirá direcciones no correlacionadas .abCXX1/2CXYCYY1/2Ia=bCXX1/2aCYY1/2bCXX1/2

ameba
fuente