Estoy tratando de comprender el resultado del análisis de componentes principales realizado de la siguiente manera:
> head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265
Rotation:
PC1 PC2 PC3 PC4
Sepal.Length 0.5210659 -0.37741762 0.7195664 0.2612863
Sepal.Width -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length 0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width 0.5648565 -0.06694199 -0.6342727 0.5235971
>
> summary(res)
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion 0.7296 0.9581 0.99482 1.00000
>
Tiendo a concluir lo siguiente del resultado anterior:
La proporción de la varianza indica cuánto de la varianza total hay en la varianza de un componente principal particular. Por lo tanto, la variabilidad de PC1 explica el 73% de la varianza total de los datos.
Los valores de rotación que se muestran son los mismos que las 'cargas' mencionadas en algunas descripciones.
Teniendo en cuenta las rotaciones de PC1, se puede concluir que Sepal.Length, Petal.Length y Petal.Width están directamente relacionados, y todos están inversamente relacionados con Sepal.Width (que tiene un valor negativo en la rotación de PC1)
Puede haber un factor en las plantas (algunos sistemas químicos / físicos funcionales, etc.) que puede estar afectando a todas estas variables (Sepal.Length, Petal.Length y Petal.Width en una dirección y Sepal.Width en la dirección opuesta).
Si quiero mostrar todas las rotaciones en un gráfico, puedo mostrar su contribución relativa a la variación total multiplicando cada rotación por la proporción de varianza de ese componente principal. Por ejemplo, para PC1, las rotaciones de 0.52, -0.26, 0.58 y 0.56 se multiplican por 0.73 (varianza proporcional para PC1, que se muestra en la salida de resumen (res).
¿Estoy en lo cierto acerca de las conclusiones anteriores?
Editar con respecto a la pregunta 5: Quiero mostrar toda la rotación en un simple gráfico de barras de la siguiente manera:
Dado que PC2, PC3 y PC4 tienen una contribución progresivamente menor a la variación, ¿tendrá sentido ajustar (reducir) las cargas de las variables allí?
fuente
Respuestas:
prcomp
documentación confirma esto , aunque no estoy seguro de por qué etiquetan esta parte del aspecto "Rotación", ya que implica que las cargas se han girado utilizando algún método ortogonal (probable) u oblicuo (menos probable).ggplot2
, creo que esto se hace con elalpha
estético), basado en la proporción de varianza explicada por cada componente (es decir, más colores sólidos = más varianza explicada). Sin embargo, en mi experiencia, su figura no es una forma típica de presentar los resultados de un PCA: creo que una tabla o dos (cargas + varianza explicadas en una, correlaciones de componentes en otra) serían mucho más sencillas.Referencias
Fabrigar, LR, Wegener, DT, MacCallum, RC y Strahan, EJ (1999). Evaluar el uso del análisis factorial exploratorio en la investigación psicológica. Métodos psicológicos , 4 , 272-299.
Widaman, KF (2007). Factores comunes versus componentes: principios y principios, errores y conceptos erróneos . En R. Cudeck y RC MacCallum (Eds.), Análisis factorial a 100: desarrollos históricos y direcciones futuras (pp. 177-203). Mahwah, Nueva Jersey: Lawrence Erlbaum.
fuente
fuente