¿Qué son los puntajes de los componentes principales?

71

¿Qué son los puntajes de los componentes principales (puntajes de PC, puntajes de PCA)?

vrish88
fuente

Respuestas:

66

Primero, definamos un puntaje.

John, Mike y Kate obtienen los siguientes porcentajes para los exámenes de matemáticas, ciencias, inglés y música de la siguiente manera:

      Maths    Science    English    Music    
John  80        85          60       55  
Mike  90        85          70       45
Kate  95        80          40       50

En este caso hay 12 puntajes en total. Cada puntaje representa los resultados del examen de cada persona en un tema en particular. Entonces, una puntuación en este caso es simplemente una representación de dónde se cruzan una fila y una columna.

Ahora definamos informalmente un Componente Principal.

En la tabla anterior, ¿puede trazar fácilmente los datos en un gráfico 2D? No, porque hay cuatro materias (lo que significa cuatro variables: matemáticas, ciencias, inglés y música), es decir:

  • Se podría trazar dos sujetos de la misma manera exacta que lo haría con e Y las coordenadas en un gráfico 2D.Xy
  • Incluso podría trazar tres temas de la misma manera que trazaría , y y z en un gráfico 3D (aunque esto es generalmente una mala práctica, porque cierta distorsión es inevitable en la representación 2D de datos 3D).Xyz

Pero, ¿cómo trazarías 4 temas?

Por el momento tenemos cuatro variables que representan cada una solo un tema. Entonces, un método alrededor de esto podría ser combinar de alguna manera los temas en quizás solo dos nuevas variables que luego podemos trazar. Esto se conoce como escalamiento multidimensional .

El análisis de componentes principales es una forma de escalamiento multidimensional. Es una transformación lineal de las variables en un espacio dimensional inferior que retiene la cantidad máxima de información sobre las variables. Por ejemplo, esto significaría que podríamos ver los tipos de asignaturas para las que cada alumno es más adecuado.

Por lo tanto, un componente principal es una combinación de las variables originales después de una transformación lineal. En R, esto es:

DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)

Lo que le dará algo como esto (los dos primeros Componentes principales solo por simplicidad):

                PC1         PC2
Maths    0.27795606  0.76772853 
Science -0.17428077 -0.08162874 
English -0.94200929  0.19632732 
Music    0.07060547 -0.60447104 

La primera columna aquí muestra los coeficientes de combinación lineal que define el componente principal # 1, y la segunda columna muestra los coeficientes para el componente principal # 2.

Entonces, ¿qué es un puntaje de componente principal?

Es una puntuación de la tabla al final de esta publicación (ver más abajo).

El resultado anterior de R significa que ahora podemos trazar el puntaje de cada persona en todas las materias en un gráfico 2D de la siguiente manera. Primero, necesitamos centrar las variables originales que significa mi columna de resta:

      Maths    Science    English    Music    
John  -8.33       1.66       3.33       5  
Mike   1.66       1.66      13.33      -5
Kate   6.66       -3.33    -16.66       0

Y luego para formar combinaciones lineales para obtener puntajes de PC1 y PC2 :

      x                                                    y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33  + 0.07*5   -0.77*8.33 + -0.08*1.66 + 0.19*3.33   + -0.60*5 
Mike 0.28*1.66  + -0.17*1.66 + -0.94*13.33 + -0.07*5   0.77*1.66 + -0.08*1.66 + 0.19*13.33  + -0.60*5
Kate 0.28*6.66  + 0.17*3.33  + 0.94*16.66  + 0.07*0    0.77*6.66 +  0.08*3.33 + -0.19*16.66 + -0.60*0

Lo que se simplifica a:

        x       y
John   -5.39   -8.90
Mike  -12.74    6.78
Kate   18.13    2.12

Hay seis puntajes de componentes principales en la tabla anterior. Ahora puede trazar los puntajes en un gráfico 2D para tener una idea del tipo de asignaturas para las que cada estudiante es quizás más adecuado.

La misma salida se puede obtener en R escribiendo prcomp(DF, scale = FALSE)$x.

EDITAR 1: Hmm, probablemente podría haber pensado un mejor ejemplo, y hay más de lo que he puesto aquí, pero espero que entiendas la idea.

EDIT 2: crédito total a @drpaulbrewer por su comentario en la mejora de esta respuesta.

Tony Breyal
fuente
10
El esfuerzo es encomiable, PERO, ni la PC1 ni la PC2 le dicen quién mejor en todas las materias. Para hacerlo, los coeficientes de sujeto de PC tendrían que ser positivos. PC1 tiene pesos positivos para Matemáticas y Música pero negativos para Ciencias e Inglés. PC2 tiene pesos positivos para Matemáticas e Inglés, pero negativos para Ciencia y Música. Lo que le dicen las PC es dónde radica la mayor variación en el conjunto de datos. Entonces, al ponderar las materias por los coeficientes en PC1, y usar eso para calificar a los estudiantes, se obtiene la mayor variación o propagación en el comportamiento de los estudiantes. Puede clasificar los tipos pero no el rendimiento.
Paul
+1 buen comentario, saludos. Por supuesto que tiene razón, debería haberlo escrito mejor y haber editado la línea ofensiva para dejarlo claro, espero.
Tony Breyal
Puede estandarizar los vars, por lo tanto, calcular la suma, para ver quién es el mejor, o si lo prefiere, en R:apply(dtf, 1, function(x) sum(scale(x)))
aL3xa
2
@JohnPrior Las cuatro variables (columnas) son Matemáticas, Ciencias, Inglés y Música, y las filas representan individuos. El término "sujeto" se vuelve ambiguo a veces porque hace cinco años elegí un horrible ejemplo para una respuesta.
Tony Breyal
1
@ Tony, seguí adelante y edité tu respuesta para centrar las variables antes de calcular los puntajes. Ahora las puntuaciones calculadas se ajustan a los prcompresultados. Antes no lo hizo.
ameba dice Reinstate Monica
23

El análisis de componentes principales (PCA) es un enfoque popular que analiza la varianza cuando se trata de datos multivariados. Tiene variables aleatorias X1, X2, ... Xn que están todas correlacionadas (positiva o negativamente) en diversos grados, y desea obtener una mejor comprensión de lo que está sucediendo. PCA puede ayudar.

Lo que PCA le brinda es un cambio de variable en Y1, Y2, ..., Yn (es decir, el mismo número de variables) que son combinaciones lineales de las Xs. Por ejemplo, puede tener Y1 = 2.1 X1 - 1.76 X2 + 0.2 X3 ...

El Y es la buena propiedad de que cada uno de estos tiene correlación cero entre sí. Mejor aún, los obtienes en orden decreciente de variación. Entonces, Y1 "explica" una gran parte de la varianza de las variables originales, Y2 un poco menos y así sucesivamente. Por lo general, después de las primeras Y, las variables dejan de tener sentido. El puntaje de PCA para cualquiera de los Xi es solo su coeficiente en cada una de las Ys. En mi ejemplo anterior, la puntuación para X2 en el primer componente principal (Y1) es 1.76.

La forma en que PCA hace esta magia es computando vectores propios de la matriz de covarianza.

Para dar un ejemplo concreto, imagine que X1, ... X10 son cambios en los rendimientos de los bonos del Tesoro a 1 año, 2 años, ..., durante un período de tiempo. Cuando calcula PCA, generalmente encuentra que el primer componente tiene puntajes para cada enlace del mismo signo y sobre el mismo signo. Esto le indica que la mayor parte de la variación en el rendimiento de los bonos proviene de que todo se mueve de la misma manera: "desplazamientos paralelos" hacia arriba o hacia abajo. El segundo componente típicamente muestra "inclinación" y "aplanamiento" de la curva y tiene signos opuestos para X1 y X10.

seancarmody
fuente
¿Cómo un valor Y más alto "explica" una porción mayor de la varianza? ¿Es así como se calcula el PCA? Si es así, creo que tengo otra pregunta para publicar;)
vrish88
1
Así es, si la varianza de la PC es, digamos 3.5, entonces esa PC "explica" la variabilidad de 3.5 variables del conjunto inicial. Como las PC son aditivas, PC1 > PC2 > ... > PCny la suma de sus variaciones es igual a la suma de las variaciones del conjunto de variables inicial, ya que la PCA se calcula sobre la matriz de covarianza, es decir, las variables están estandarizadas (SD = 1, VAR = 1).
aL3xa
6

Supongamos que tiene una nube de N puntos en, digamos, 3D (que se puede enumerar en una matriz de 100x3). Luego, el análisis de componentes principales (PCA) ajusta un elipsoide orientado arbitrariamente en los datos. La puntuación del componente principal es la longitud de los diámetros del elipsoide.

En la dirección en que el diámetro es grande, los datos varían mucho, mientras que en la dirección en que el diámetro es pequeño, los datos varían poco. Si desea proyectar datos Nd en un diagrama de dispersión 2-d, debe trazarlos a lo largo de los dos componentes principales más grandes, porque con ese enfoque muestra la mayor parte de la varianza en los datos.

Jonas
fuente
¿Habría algún beneficio o podría trazarlos en un diagrama de dispersión tridimensional?
vrish88
6

Me gusta pensar que los puntajes de los componentes principales son "básicamente sin sentido" hasta que realmente les dé algún significado. Interpretar los puntajes de la PC en términos de "realidad" es un negocio complicado, y realmente no puede haber una forma única de hacerlo. Depende de lo que sepa sobre las variables particulares que entran en el PCA y de cómo se relacionan entre sí en términos de interpretaciones.

En lo que respecta a las matemáticas, me gusta interpretar los puntajes de PC como las coordenadas de cada punto, con respecto a los ejes componentes principales. Entonces, en las variables en bruto que tienesXyo =(X1yo,X2yo,...,Xpagsyo)X1X1yozyo =(z1yo,z2yo,...,zpagsyo)=UNA(Xyo-X¯)UNApags×pagsX¯

Por lo tanto, puede pensar en los vectores propios como una descripción de dónde están las "líneas rectas" que describen las PC. Luego, los puntajes de los componentes principales describen dónde se encuentra cada punto de datos en cada línea recta, en relación con el "centro" de los datos. También puede pensar en las puntuaciones de PC en combinación con los pesos / vectores propios como una serie de predicciones de rango 1 para cada uno de los puntos de datos originales, que tienen la forma:

X^jyo(k)=X¯j+zkyoUNAkj

X^jyo(k)yojk

probabilidadislogica
fuente
4

Los componentes principales de una matriz de datos son los pares vector propio-valor propio de su matriz de varianza-covarianza. En esencia, son las piezas relacionadas con la decoración de la variación. Cada una es una combinación lineal de las variables para una observación; suponga que mide w, x, y, z en cada uno de los temas. Su primera PC podría funcionar para ser algo así como

0.5w + 4x + 5y - 1.5z

Las cargas (vectores propios) aquí son (0.5, 4, 5, -1.5). El puntaje (valor propio) para cada observación es el valor resultante cuando sustituye en el observado (w, x, y, z) y calcula el total.

Esto es útil cuando proyecta cosas en sus componentes principales (para, por ejemplo, detección de valores atípicos) porque simplemente traza los puntajes en cada uno como lo haría con cualquier otro dato. Esto puede revelar mucho acerca de sus datos si gran parte de la variación está correlacionada (== en las primeras PC).

Tim
fuente
Solo por claridad, cuando dice "suponga que mide w, x, y, z en cada uno de los temas", no se está refiriendo a los "temas" de la respuesta de @TonyBreyal, ¿verdad? ¿Está utilizando la palabra "sujetos" como sinónimo de "observaciones" / "registros" / "filas de datos"?
Ryan Chase
4

yo=1,...,nortej=1,...,METRO

Zyo,1=Cyo,1Yyo,1+Cyo,2Yyo,2+...+Cyo,METROYyo,METRO

CY

Z1=(Z1,1,...,Znorte,1

Una salida de R en PCA (un ejemplo falso) se ve así. PC1, PC2 ... son componentes principales 1, 2 ... El siguiente ejemplo muestra solo los primeros 8 componentes principales (de 17). También puede extraer otros elementos de PCA, como cargas y puntajes.

Importance of components:
                          PC1    PC2    PC3    PC4    PC5    PC6    PC7    PC8
Standard deviation     1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion  0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129
Roman Luštrik
fuente
1
Lo sentimos, pero ¿qué son las cargas (c en su fórmula) y cómo las determina?
vrish88
@ vrish88 Creo que las c son las "cargas" de los vectores propios. Tengo entendido que estos son esencialmente solo las ponderaciones que está dando a cada una de las variables. Tim explica esto bien en su respuesta.
Ryan Chase
3

Los puntajes de los componentes principales son un grupo de puntajes que se obtienen después de un análisis de componentes principales (PCA). En PCA, las relaciones entre un grupo de puntajes se analizan de manera tal que se crea un número igual de nuevas variables "imaginarias" (también conocidas como componentes principales). La primera de estas nuevas variables imaginarias está correlacionada al máximo con todo el grupo original de variables. El siguiente está algo menos correlacionado, y así sucesivamente hasta el punto en que si usara todos los puntajes de los componentes principales para predecir cualquier variable dada del grupo inicial, podría explicar toda su varianza. La forma en que procede la PCA es compleja y tiene ciertas restricciones. Entre ellas está la restricción de que la correlación entre dos componentes principales (es decir, variables imaginarias) es cero; por lo tanto no

russellpierce
fuente