¿Por qué solo hay componentes principales para datos si el número de dimensiones es ?

22

En PCA, cuando el número de dimensiones es mayor (o incluso igual) al número de muestras , ¿por qué tendrá como máximo vectores propios distintos de cero? En otras palabras, el rango de la matriz de covarianza entre las dimensiones es .N N - 1 d N N - 1renortenorte-1renortenorte-1

Ejemplo: sus muestras son imágenes vectorizadas, que son de dimensión , pero solo tiene imágenes.N = 10re=640×480=307200norte=10

GrokingPCA
fuente
55
Imagine puntos en 2D o en 3D. ¿Cuál es la dimensionalidad de la variedad que ocupan estos puntos? La respuesta es : dos puntos siempre se encuentran en una línea (y una línea es unidimensional). La dimensionalidad exacta del espacio no importa (siempre que sea mayor que ), sus puntos solo ocupan un subespacio unidimensional. Por lo tanto, la varianza solo se "extiende" en este subespacio, es decir, a lo largo de 1 dimensión. Esto sigue siendo cierto para cualquier . N - 1 = 1 N Nnorte=2norte-1=1nortenorte
ameba dice Reinstate Monica
1
Agregaría solo una precisión adicional al comentario de @ amoeba. El punto de origen también importa. Entonces, si tiene N = 2 + origen, el número de dimensiones es como máximo 2 (no 1). Sin embargo, en PCA generalmente centramos los datos, lo que significa que colocamos el origen dentro del espacio de la nube de datos, luego se consume una dimensión y la respuesta será "N-1", como lo muestra la ameba.
ttnphns
Esto es lo que me confunde. No es el centrado per se lo que destruye la dimensión, ¿verdad? Si tiene exactamente N muestras y N dimensiones, entonces, incluso después de centrar, ¿todavía tiene N vectores propios?
GrokingPCA
2
¿Por qué? Está centrando lo que destruye una dimensión. El centrado (por media aritmética) "mueve" el origen desde "afuera" al espacio "atravesado" por los datos. Con el ejemplo de N = 2. 2 puntos + algún origen generalmente abarcan un plano. Cuando centra estos datos, coloca el origen en una línea recta a medio camino entre los 2 puntos. Entonces, los datos ahora abarcan solo la línea.
ttnphns
3
Euclides ya lo sabía hace 2300 años: dos puntos determinan una línea, tres puntos determinan un plano. Generalizando, puntos determinan un espacio euclidiano dimensional . N - 1nortenorte-1
whuber

Respuestas:

20

Considere lo que hace PCA. En pocas palabras, PCA (como se ejecuta normalmente) crea un nuevo sistema de coordenadas al:

  1. desplazando el origen al centroide de sus datos,
  2. aprieta y / o estira los ejes para que tengan la misma longitud, y
  3. Rota tus ejes en una nueva orientación.

(Para obtener más detalles, consulte este excelente hilo CV: dar sentido al análisis de componentes principales, vectores propios y valores propios ). Sin embargo, no solo gira sus ejes de la manera anterior. Su nuevo (el primer componente principal) está orientado en la dirección de variación máxima de sus datos. El segundo componente principal está orientado en la dirección de la siguiente mayor cantidad de variación que es ortogonal al primer componente principal . Los componentes principales restantes se forman de la misma manera. X1


X=[111222]

ingrese la descripción de la imagen aquí

(1,5,1,5,1,5)(0 0,0 0,0 0)(3,3,3)(0 0,0 0,3)(3,3,0 0)(0 0,3,0 0)(3,0 0,3)

norte=2norte-1=1

gung - Restablece a Monica
fuente