Comprensión geométrica de PCA en el espacio sujeto (dual)

19

Estoy tratando de obtener una comprensión intuitiva de cómo funciona el análisis de componentes principales (PCA) en el espacio sujeto (dual) .

Considere el conjunto de datos 2D con dos variables, y , puntos de datos (matriz de datos es y se supone que está centrado). La presentación habitual de PCA es que consideramos puntos en , escribimos la matriz de covarianza 2 × 2 y encontramos sus vectores propios y valores propios; la primera PC corresponde a la dirección de la varianza máxima, etc. Aquí hay un ejemplo con la matriz de covarianza C = ( 4 2 2 2 ) . Las líneas rojas muestran vectores propios escalados por las raíces cuadradas de los valores propios respectivos.x 2 n X n × 2 n R 2x1x2nXn×2nR22×2C=(4222)

PCA en espacio muestral

Ahora considere lo que sucede en el espacio temático (aprendí este término de @ttnphns), también conocido como espacio dual (el término utilizado en el aprendizaje automático). Este es un espacio -dimensional donde las muestras de nuestras dos variables (dos columnas de X ) forman dos vectores x 1 y x 2 . La longitud al cuadrado de cada vector variable es igual a su varianza, el coseno del ángulo entre los dos vectores es igual a la correlación entre ellos. Esta representación, por cierto, es muy estándar en los tratamientos de regresión múltiple. En mi ejemplo, el espacio sujeto se ve así (solo muestro el plano 2D atravesado por los dos vectores variables):nXx1x2

PCA en el espacio temático 1

Los componentes principales, que son combinaciones lineales de las dos variables, formarán dos vectores y p 2 en el mismo plano. Mi pregunta es: ¿cuál es la comprensión / intuición geométrica de cómo formar vectores variables de componentes principales usando los vectores variables originales en tal diagrama? Dada x 1 y x 2 , lo que procedimiento geométrico produciría p 1 ?p1p2x1x2p1


A continuación se muestra mi comprensión parcial actual.

En primer lugar, puedo calcular componentes / ejes principales a través del método estándar y trazarlos en la misma figura:

PCA en el espacio temático 2

Además, podemos notar que el se elige de tal manera que la suma de las distancias al cuadrado entre x i (vectores azules) y sus proyecciones en p 1 es mínima; esas distancias son errores de reconstrucción y se muestran con líneas negras discontinuas. De manera equivalente, p 1 maximiza la suma de las longitudes al cuadrado de ambas proyecciones. Esto especifica completamente p 1 y, por supuesto, es completamente análogo a una descripción similar en el espacio primario (vea la animación en mi respuesta a Dar sentido al análisis de componentes principales, vectores propios y valores propios ). Vea también la primera parte de la respuesta de @ ttnphns aquí .p1xip1p1p1

Sin embargo, esto no es lo suficientemente geométrico. No me dice cómo encontrar tal y no especifica su longitud.p1

Supongo que , x 2 , p 1 y p 2 se encuentran en una elipse centrada en 0, siendo p 1 y p 2 sus ejes principales. Así es como se ve en mi ejemplo:x1x2p1p20p1p2

ingrese la descripción de la imagen aquí

Q1: ¿Cómo demostrar eso? La demostración algebraica directa parece ser muy tediosa; ¿Cómo ver que este debe ser el caso?

Pero hay muchas elipses diferentes centradas en y que pasan por x 1 y x 2 :0x1x2

ingrese la descripción de la imagen aquí

P2: ¿Qué especifica la elipse "correcta"? Mi primera suposición fue que es la elipse con el eje principal más largo posible; pero parece estar equivocado (hay puntos suspensivos con eje principal de cualquier longitud).

Si hay respuestas a Q1 y Q2, también me gustaría saber si se generalizan al caso de más de dos variables.

ameba dice Reinstate Monica
fuente
¿Es cierto que hay muchas elipses posibles que se centran en el origen (donde se intersecan x1 y x2) y hacen contacto con los extremos de x1 y x2? Pensé que solo habría uno. Ciertamente puede haber muchos si relaja 1 de esos 3 criterios (centro y 2 extremos).
gung - Restablece a Monica
Hay muchas elipses centradas en el origen que pasan a través de dos vectores. Pero para los vectores no colineales y ( c , d ) solo hay uno que es el círculo unitario en la base dual. Es el lugar geométrico de x ( a , b ) + y ( c , d ) donde | ( a c b d ) - 1 ( x y ) | 2 = 1.(a,b)(c,d)x(a,b)+y(c,d)
|(acbd)1(xy)|2=1.
Se puede aprender mucho de sus ejes principales.
whuber
3
variable space (I borrowed this term from ttnphns)- @amoeba, debes estar equivocado. Las variables como vectores en el espacio n-dimensional (originalmente) se denomina espacio sujeto (n sujetos como ejes "definieron" el espacio mientras que las variables p lo "abarcan"). El espacio variable es, por el contrario, lo contrario, es decir, el diagrama de dispersión habitual. Así es como se establece la terminología en las estadísticas multivariadas. (Si en el aprendizaje automático es diferente, no lo sé, entonces es mucho peor para los alumnos).
ttnphns
Tenga en cuenta que ambos son espacios vectoriales: los vectores (= puntos) es lo que se extiende, los ejes es lo que define las direcciones y las muescas de medición del oso. Tenga en cuenta también la dialéctica: ambos "espacios" son en realidad el mismo espacio (solo formulado de manera diferente para un propósito actual). Se ve, por ejemplo, en la última imagen de esta respuesta . Cuando superpones las dos formulaciones obtienes el biplot, o espacio dual.
ttnphns
My guess is that x1, x2, p1, p2 all lie on one ellipse¿Cuál podría ser la ayuda heurística de la elipse aquí? Lo dudo.
ttnphns

Respuestas:

5

Todos los resúmenes de mostrados en la pregunta dependen solo de sus segundos momentos; o, de manera equivalente, en la matriz X ' X . Debido a que estamos pensando en X como una nube de puntos punto --Cada es una fila de X --nos puede preguntar qué operaciones simples en estos puntos conservan las propiedades de X ' X .XXXXXXX

Una es a izquierda-multiplicar por un n × n matriz U , que produciría otro n × 2 matriz U X . Para que esto funcione, es esencial queXn×nUn×2UX

XX=(UX)UX=X(UU)X.

La igualdad está garantizada cuando es la matriz de identidad n × n : es decir, cuando U es ortogonal .UUn×nU

Es bien sabido (y fácil de demostrar) que las matrices ortogonales son producto de reflexiones y rotaciones euclidianas (forman un grupo de reflexión en ). Al elegir rotaciones sabiamente, podemos simplificar drásticamente X . Una idea es centrarse en las rotaciones que afectan solo dos puntos en la nube a la vez. Estos son particularmente simples, porque podemos visualizarlos.RnX

Específicamente, dejo y ( x j , y j ) dos puntos distintos de cero distintas en la nube, constituyendo filas i y j de X . Una rotación del espacio de columna R n que afecta solo a estos dos puntos los convierte en(xi,yi)(xj,yj)ijXRn

{(xi,yi)=(cos(θ)xi+sin(θ)xj,cos(θ)yi+sin(θ)yj)(xj,yj)=(sin(θ)xi+cos(θ)xj,sin(θ)yi+cos(θ)yj).

Esto equivale a dibujar los vectores y ( y i , y j ) en el plano y rotarlos por el ángulo θ . (¡Observe cómo las coordenadas se mezclan aquí! Las x van juntas y las y van juntas. Por lo tanto, el efecto de esta rotación en R n generalmente no se verá como una rotación de los vectores ( x i , y i ) y ( x j , y j )(xi,xj)(yi,yj)θxyRnorte(xi,yi)(Xj,yj) como se dibuja en R2 )

Al elegir el ángulo correcto, podemos poner a cero cualquiera de estos nuevos componentes. Para ser concretos, elijamos para queθ

{cos(θ)=±XyoXyo2+Xj2pecado(θ)=±XjXyo2+Xj2.

Esto hace que . Elija el signo para hacer y j0 . Llamemos a esta operación, que cambia los puntos i y j en la nube representada por X , γ ( i , j ) .Xj=0 0yj0 0yojXγ(yo,j)

La aplicación recursiva de a X hará que la primera columna de X sea ​​distinta de cero en la primera fila. Geométricamente, habremos movido todos menos un punto de la nube al eje y . Ahora podemos aplicar una sola rotación, que potencialmente involucra las coordenadas 2 , 3 , ... , n en R n , para exprimir esos nγ(1,2),γ(1,3),...,γ(1,norte)XXy2,3,...,norteRnorte puntos hacia abajo a un solo punto. De manera equivalente, X se ha reducido a una forma de bloquenorte-1X

X=(X1y10 0z),

con y z ambos vectores de columna con n - 1 coordenadas, de tal manera que0 0znorte-1

XX=((X1)2X1y1X1y1(y1)2+El |El |zEl |El |2).

X

X=(X1y10 0El |El |zEl |El |0 00 00 00 0).

X2×2(X1y10 0El |El |zEl |El |)

Para ilustrar, dibujé cuatro puntos iid de una distribución Normal bivariada y redondeé sus valores a

X=(0,090,12-0,31-0,630,74-0.23-1.8-0,39)

Esta nube de puntos inicial se muestra a la izquierda de la siguiente figura usando puntos negros sólidos, con flechas de colores que apuntan desde el origen a cada punto (para ayudarnos a visualizarlos como vectores ).

Figura

γ(1,2),γ(1,3),γ(1,4)yX||z|El |(x1,y1)

X

(1)θ  (cos(θ)X1,cos(θ)y1+pecado(θ)El |El |zEl |El |)

mientras que el segundo vector traza el mismo camino de acuerdo con

(2)θ  (sin(θ)x1,sin(θ)y1+cos(θ)||z||).

{(cos(θ),sin(θ)):0θ<2π}

(1,0)  (x1,0);(0,1)  (y1,||z||),

θ(1) (2)θ

Figura 2

Debido a que estos son ortogonales y están dirigidos a lo largo de los ejes de la elipse, representan correctamente los ejes principales : la solución PCA. Eso responde a la pregunta 1.


R2p=2R2

γ(i,j)QXRDVX=UDVU

p2

whuber
fuente
Aunque su respuesta puede ser ejemplar en sí misma, no está claro, para mí, cómo se relaciona con la pregunta. Estás hablando sobre la nube de datos X (y los vectores que giras son puntos de datos, filas de X). Pero la pregunta era sobre el espacio reducido del tema . En otras palabras, no tenemos ningún dato X, solo tenemos una covarianza 2x2 o una matriz de dispersión X'X.
ttnphns
(cont.) Representamos las 2 variables resumidas por ella como 2 vectores con longitudes = sqrt (elementos diagonales) y ángulo = su correlación. Luego, el OP pregunta cómo podemos resolver puramente geométricamente los componentes principales. En otras palabras, OP quiere explicar la descomposición geométrica propia (valores propios y vectores propios o, mejor, cargas) de la matriz de covarianza simétrica 2x2.
ttnphns
(cont.) Mire la segunda imagen allí . Lo que busca el OP de la pregunta actual es encontrar herramientas o trucos geométricos (trigonométricos, etc.) para dibujar los vectores P1 y P2 en esa imagen, teniendo solo los vectores X e Y como se indica.
ttnphns
1
XXXXX
1
Gracias, estoy empezando a entender tu pensamiento. (Me gustaría que ha añadido subtítulos / sinopsis derecha en su respuesta acerca de las dos "mitades" de la misma, sólo para estructurarlo para un lector.)
ttnphns