¿Cómo visualizar lo que hace el análisis de correlación canónica (en comparación con lo que hace el análisis de componentes principales)?

70

El análisis de correlación canónica (CCA) es una técnica relacionada con el análisis de componentes principales (PCA). Si bien es fácil enseñar PCA o regresión lineal utilizando un diagrama de dispersión (vea algunos miles de ejemplos en la búsqueda de imágenes de Google), no he visto un ejemplo bidimensional intuitivo similar para CCA. ¿Cómo explicar visualmente qué hace el CCA lineal?

regression data-visualization pca canonical-correlation geometry figura
fuente

1

¿De qué manera CCA generaliza PCA? No diría que es su generalización. PCA funciona con un conjunto de variables, CCA funciona con dos (o más, implementaciones modernas), y esta es una gran diferencia.

ttnphns

2

Bueno, estrictamente hablando relacionado podría ser una mejor opción de palabra. De todos modos, PCA opera en una matriz de covarianza y CCA en una matriz de covarianza cruzada. Si solo tiene un conjunto de datos, el cálculo de sus covarianzas cruzadas contra sí mismo termina en el caso más simple (PCA).

figura

44

Bueno, sí, "relacionado" es mejor. CCA tiene en cuenta tanto las intercovarianzas como las covarianzas cruzadas.

ttnphns

1

Algunos han sugerido visualizar correlaciones canónicas usando heliógrafos. Es posible que desee leer el documento ti.arc.nasa.gov/m/profile/adegani/Composite_Heliographs.pdf

97

Bueno, creo que es realmente difícil presentar una explicación visual del análisis de correlación canónica (CCA) frente al análisis de componentes principales (PCA) o la regresión lineal . Los dos últimos a menudo se explican y comparan por medio de diagramas de dispersión de datos 2D o 3D, pero dudo si eso es posible con CCA. A continuación, dibujé imágenes que podrían explicar la esencia y las diferencias en los tres procedimientos, pero incluso con estas imágenes, que son representaciones vectoriales en el "espacio sujeto", existen problemas para capturar CCA adecuadamente. (Para el álgebra / algoritmo de análisis de correlación canónica, mire aquí ).

Dibujar individuos como puntos en un espacio donde los ejes son variables, un diagrama de dispersión habitual, es un espacio variable . Si dibuja de la manera opuesta (variables como puntos e individuos como ejes), ese será un espacio sujeto . Dibujar los muchos ejes es realmente innecesario porque el espacio tiene el número de dimensiones no redundantes igual al número de variables no colineales. Los puntos variables están conectados con el origen y forman vectores, flechas, que abarcan el espacio sujeto; Así que aquí estamos ( ver también ). En un espacio sujeto, si las variables se han centrado, el coseno del ángulo entre sus vectores es la correlación de Pearson entre ellos, y las longitudes al cuadrado de los vectores son sus variaciones. En las siguientes imágenes, las variables que se muestran están centradas (no es necesario que surja una constante).

Componentes principales

ingrese la descripción de la imagen aquí

Las variables y correlacionan positivamente: tienen un ángulo agudo entre ellas. Los componentes principales y encuentran en el mismo espacio "plano X" atravesado por las dos variables. Los componentes también son variables, solo mutuamente ortogonales (no correlacionados). La dirección de es tal que maximiza la suma de las dos cargas al cuadrado de este componente; y , el componente restante, va ortogonalmente a en el plano X. Las longitudes al cuadrado de los cuatro vectores son sus variaciones (la varianza de un componente es la suma de sus cargas al cuadrado antes mencionadas). Las cargas de componentes son las coordenadas de las variables en los componentes: $X_1$ $X_2$ $P_1$ $P_2$ $P_1$ $P_2$ $P_1$ $a$ se muestra en la foto de la izquierda. Cada variable es la combinación lineal libre de errores de los dos componentes, siendo las cargas correspondientes los coeficientes de regresión. Y viceversa , cada componente es la combinación lineal sin errores de las dos variables; Los coeficientes de regresión en esta combinación están dados por las coordenadas oblicuas de los componentes en las variables - 's que se muestran en la imagen de la derecha. La magnitud real coeficiente de regresión se dividido por el producto de las longitudes (desviaciones estándar) del componente predicho y la variable predictora, por ejemplo . [Nota al pie: Los valores de los componentes que aparecen en las dos combinaciones lineales mencionadas anteriormente son valores estandarizados, st. dev. $b$ $b$ $b_{12}/(|P_1|*|X_2|)$ = 1. Esto porque la información sobre sus variaciones es capturada por las cargas . Para hablar en términos de valores de componentes no estandarizados, 's en la imagen de arriba debe ser valores de vectores propios , el resto del razonamiento es el mismo.] $a$

Regresión múltiple

ingrese la descripción de la imagen aquí

Mientras que en PCA todo se encuentra en el plano X, en la regresión múltiple aparece una variable dependiente que generalmente no pertenece al plano X, el espacio de los predictores , . Pero se proyecta perpendicularmente en el plano X, y la proyección , la sombra de , es la predicción o combinación lineal de las dos ' s. En la imagen, la longitud al cuadrado de es la varianza del error. El coseno entre e es el coeficiente de correlación múltiple. Al igual que con PCA, los coeficientes de regresión están dados por las coordenadas asimétricas de la predicción ( $Y$ $X_1$ $X_2$ $Y$ $Y'$ $Y$ $X$ $e$ $Y$ $Y'$ $Y'$ ) en las variables - 's. La magnitud real coeficiente de regresión se dividido por la longitud (desviación estándar) de la variable de predictor, por ejemplo. $b$ $b$ $b_{2}/|X_2|$

Correlación canónica

En PCA, un conjunto de variables se predicen a sí mismas: modelan componentes principales que a su vez modelan las variables, no se deja el espacio de los predictores y (si usa todos los componentes) la predicción está libre de errores. En la regresión múltiple, un conjunto de variables predice una variable extraña y, por lo tanto, hay algún error de predicción. En CCA, la situación es similar a la de la regresión, pero (1) las variables extrañas son múltiples, formando un conjunto propio; (2) los dos conjuntos se predicen simultáneamente (por lo tanto, correlación en lugar de regresión); (3) lo que predicen entre sí es más bien un extracto, una variable latente, que el pronóstico observado y una regresión ( ver también ).

ingrese la descripción de la imagen aquí

Vamos implican el segundo conjunto de variables y correlacionar canónicamente con nuestro conjunto 's. Tenemos espacios, aquí, planos, X e Y. Debe notificarse que para que la situación no sea trivial, como en el caso anterior con regresión donde sobresale del plano X, los planos X e Y deben cruzarse solo en un punto, el origen. Desafortunadamente, es imposible dibujar en papel porque es necesaria una presentación 4D. De todos modos, la flecha gris indica que los dos orígenes son un punto y el único compartido por los dos planos. Si se toma eso, el resto de la imagen se parece a lo que fue con la regresión. y $Y_1$ $Y_2$ $X$ $Y$ $V_x$ $V_y$ son el par de variantes canónicas. Cada variante canónica es la combinación lineal de las variables respectivas, como . fue la proyección ortogonal de sobre el plano X. Aquí es una proyección de en el plano X y simultáneamente es una proyección de en el plano Y, pero son no proyecciones ortogonales. En cambio, se encuentran (extraen) para minimizar el ángulo entre ellos $Y'$ $Y'$ $Y$ $V_x$ $V_y$ $V_y$ $V_x$ $\phi$ . El coseno de ese ángulo es la correlación canónica. Dado que las proyecciones no necesitan ser ortogonales, las longitudes (por lo tanto, las variaciones) de las variables canónicas no se determinan automáticamente por el algoritmo de ajuste y están sujetas a convenciones / restricciones que pueden diferir en diferentes implementaciones. El número de pares de variables canónicas (y, por lo tanto, el número de correlaciones canónicas) es min (número de s, número de s). Y aquí llega el momento en que CCA se asemeja a PCA. En PCA, usted hojea componentes principales mutuamente ortogonales (como si lo hiciera) recursivamente hasta que se agote toda la variabilidad multivariada. De forma similar, en CCA se extraen pares mutuamente ortogonales de variables con correlación máxima hasta que se pueda predecir toda la variabilidad multivariada $X$ $Y$ $X_1$ $X_2$ $Y_1$ $Y_2$ $V_{x(2)}$ $V_x$ $V_{y(2)}$ $V_y$

Para ver la diferencia entre la regresión de CCA y PCA +, consulte también Cómo hacer CCA versus construir una variable dependiente con PCA y luego hacer la regresión .

ttnphns
fuente

3

+1 (desde hace días). Realmente espero que termines con más de 6 votos a favor para esto; es una excelente visión general de cómo funciona CCA.

gung - Restablece a Monica

2

Esto me ayuda mucho a entender CCA.

Zhenglei

@Glen_b, me sorprendió mucho, tan contento de que hayas decidido premiar esta respuesta.

ttnphns

1

@ttnphns, excelente. Aunque no entendí todo, definitivamente es la mejor explicación de CCA que he encontrado. Y creo que es realmente importante tener una visión de lo que está sucediendo, ya que sé que recordaré algo si puedo visualizarlo, en lugar de serpentear a través de diferentes teoremas.

Christian el

P_{1}

$P_1$

X_{1}

$X_1$

X_{2}

$X_2$

2

Para mí fue muy útil leer en el libro de S. Mulaik "The Foundations of Factoranalysis" (1972), que hay un método puramente de rotaciones de una matriz de cargas de factores para llegar a una correlación canónica, para poder localizar en ese conjunto de conceptos que ya había entendido hasta ahora del análisis de componentes principales y el análisis factorial.

Tal vez le interese este ejemplo (que reconstruí a partir de una primera implementación / discusión de aproximadamente 1998 hace solo un par de días para verificar y volver a verificar el método contra el cómputo de SPSS). Ver aquí . Estoy usando mi pequeña matriz / pca-tools Inside-[R]y Matmatepara esto, pero creo que se puede reconstruir Rsin demasiado esfuerzo.

Yelmos de Gottfried
fuente

2

Esta respuesta no proporciona una ayuda visual para comprender CCA, sin embargo, una buena interpretación geométrica de CCA se presenta en el Capítulo 12 de Anderson-1958 [1]. La esencia de esto es la siguiente:

$N$ $x_1, x_2, ..., x_N$ $p$ $X$ $p\times N$ $x_i$ $X$ $p$ $(N-1)$ $^*$ $p_1$ $p_2$ $x_1,...,x_{p_1}$ $p_2$ $x_{p_1+1}, ..., x_p$

Esta perspectiva me parece interesante por estos motivos:

Proporciona una interpretación geométrica interesante sobre las entradas de variables canónicas CCA.
Los coeficientes de correlación están vinculados al ángulo entre las dos proyecciones de CCA.
$\frac{p_1}{N}$ $\frac{p_2}{N}$ $\rightarrow$ $(N-1)$ $N$

$p_1$ $p_2$

$(N-1)$ $N$ $\text{mean}(x_i) = 0$

[1] Anderson, TW Una introducción al análisis estadístico multivariante. Vol. 2. Nueva York: Wiley, 1958.

idnavid
fuente

1

¿Puedes agregar imágenes de ese libro para visualizar la respuesta?

ttnphns

Desafortunadamente, el libro no tiene imágenes para este capítulo (de hecho, no creo que haya cifras en todo el libro).

idnavid

@ttnphns Pasé algún tiempo el otro día y preparé un pequeño ejemplo para ilustrar este punto. ¡Gracias por la sugerencia!

idnavid

1

La mejor manera de enseñar estadísticas es con datos. Las técnicas estadísticas multivariadas a menudo se vuelven muy complicadas con matrices que no son intuitivas. Yo explicaría CCA usando Excel. Cree dos muestras, agregue nuevas variantes (columnas básicamente) y muestre el cálculo. Y en lo que respecta a la construcción matricial de CCA, la mejor manera es enseñar primero con un caso bivariado y luego expandirlo.

S Chapman
fuente

¿Cómo visualizar lo que hace el análisis de correlación canónica (en comparación con lo que hace el análisis de componentes principales)?

Respuestas:

Componentes principales

Regresión múltiple

Correlación canónica