Interpretación de puntajes de PCA

16

¿Alguien puede ayudarme a interpretar los puntajes de PCA? Mis datos provienen de un cuestionario sobre actitudes hacia los osos. Según las cargas, he interpretado uno de mis componentes principales como "miedo a los osos". ¿Se relacionarían los puntajes de ese componente principal con la forma en que cada encuestado mide hasta ese componente principal (si él / ella obtiene puntajes positivos / negativos en él)?

mdewey
fuente
La respuesta corta a su pregunta es SÍ.
ameba dice Reinstate Monica

Respuestas:

13

Básicamente, los puntajes de los factores se calculan como las respuestas sin procesar ponderadas por las cargas de los factores. Por lo tanto, debe observar las cargas de factores de su primera dimensión para ver cómo cada variable se relaciona con el componente principal. Observar altas cargas positivas (resp. Negativas) asociadas a variables específicas significa que estas variables contribuyen positivamente (resp. Negativamente) a este componente; por lo tanto, las personas con puntajes altos en estas variables tenderán a tener puntajes de factores más altos (o más bajos) en esta dimensión particular.

Dibujar el círculo de correlación es útil para tener una idea general de las variables que contribuyen "positivamente" frente a "negativamente" (si corresponde) al primer eje principal, pero si está utilizando R, puede echar un vistazo al paquete FactoMineR y La dimdesc()función.

Aquí hay un ejemplo con los USArrestsdatos:

> data(USArrests)
> library(FactoMineR)
> res <- PCA(USArrests)
> dimdesc(res, axes=1)  # show correlation of variables with 1st axis
$Dim.1
$Dim.1$quanti
         correlation  p.value
Assault        0.918 5.76e-21
Rape           0.856 2.40e-15
Murder         0.844 1.39e-14
UrbanPop       0.438 1.46e-03
> res$var$coord  # show loadings associated to each axis
         Dim.1  Dim.2  Dim.3   Dim.4
Murder   0.844 -0.416  0.204  0.2704
Assault  0.918 -0.187  0.160 -0.3096
UrbanPop 0.438  0.868  0.226  0.0558
Rape     0.856  0.166 -0.488  0.0371

Como se puede ver en el último resultado, la primera dimensión refleja principalmente actos violentos (de cualquier tipo). Si miramos el mapa individual, está claro que los estados ubicados a la derecha son aquellos en los que tales actos son más frecuentes.

texto alternativo texto alternativo

También le puede interesar esta pregunta relacionada: ¿Qué son los puntajes de los componentes principales?

chl
fuente
5

Para mí, los puntajes de PCA son solo arreglos de los datos en una forma que me permite explicar el conjunto de datos con menos variables. Los puntajes representan cuánto se relaciona cada elemento con el componente. Puede nombrarlos según el análisis factorial, pero es importante recordar que no son variables latentes, ya que PCA analiza todas las variaciones en el conjunto de datos, no solo los elementos en común (como lo hace el análisis factorial).

richiemorrisroe
fuente
Sí, tiene razón al decir que no se incorpora ningún modelo de errores en PCA, a diferencia de FA. Tengo +1 para ese punto en particular. Tenga en cuenta que dije "tiene sentido considerar", no que los componentes principales extraídos de PCA sean verdaderos LV. Sin embargo, a menos que esté interesado en evaluar la confiabilidad de la escala o los modelos de medición, no importa si usa PCA o FA. Ahora, el análisis de datos a menudo se ocupa de explicar la correlación entre variables o encontrar grupos de sujetos, de ahí la idea de interpretar una o más dimensiones del espacio factorial. (...)
chl
(...) El FactoMineR incluye un conjunto de datos sobre vinos, y se pueden utilizar muchos métodos de factores para jugar con él (PCA, MFA), e incluso PLS o CCA como lo ha hecho Michel Tenenhaus.
chl
@ chl, gracias por la pista sobre el paquete, lo comprobaré. En PCA vs FA estoy de acuerdo hasta cierto punto. Prefiero FA para la mayoría de las aplicaciones, ya que financio las estimaciones de comunalidades (la varianza común) que son muy útiles para evaluar el valor de una estructura de factores en particular. Sin embargo, eso puede ser solo una preferencia personal.
richiemorrisroe
Tiene toda la razón (ya voté su respuesta anterior porque se hizo muy clara). Es solo que PCA (sin rotación) tiene su propia historia en el análisis de datos (especialmente la escuela francesa), junto con CA, MFA, MCA. Por otro lado, Paul Kline tiene dos libros muy bonitos sobre el uso de FA en la investigación de la personalidad. Y el próximo libro de William Revelle debería ser genial para los usuarios de R :) Bueno, en cualquier caso, creo que estamos de acuerdo en que estas son herramientas útiles para analizar la estructura de una matriz de correlación.
chl
0

Los resultados de la PCA (las diferentes dimensiones o componentes) generalmente no se pueden traducir a un concepto real. Creo que es incorrecto suponer que uno de los componentes es el "miedo a los osos". El procedimiento de componentes principales transforma su matriz de datos en una nueva matriz de datos con la misma o menor cantidad de dimensiones, y las dimensiones resultantes van desde la que explica mejor la varianza a la que explica menos. Estos componentes se calculan en función de una combinación de las variables originales con los vectores propios calculados. El procedimiento de PCA general convierte las variables originales en ortogonales (linealmente independientes). Espero que esto te ayude a aclarar un poco sobre el procedimiento de PCA

mariana más suave
fuente
¿Estaría de acuerdo en que una combinación lineal de algunas variables todavía puede interpretarse como un reflejo de algún tipo de contribución ponderada de cada una de ellas al eje del factor?
chl
Sí, eso es exactamente.
mariana soffer
Entonces, ¿por qué evitar darle un nombre? Las variables se consideran simplemente como variables manifiestas y, en algunos casos, tiene sentido considerar su combinación ponderada como un factor latente (no observado).
chl