Después de hacer PCA, el primer componente describe la mayor parte de la variabilidad. Esto es importante, por ejemplo, en el estudio de mediciones corporales donde se sabe comúnmente (Jolliffe, 2002) que el eje PC1 captura la variación de tamaño. Mi pregunta es si las puntuaciones de PCA después de la rotación varimax conservan las mismas propiedades o son diferentes como se menciona en este tema .
Dado que necesito puntajes de PCA para análisis estadísticos adicionales, me pregunto si se necesita varimax y, de hecho, ¿interrumpe la representación de la variabilidad de la muestra real para que los puntajes individuales en los ejes rotados no sean informativos o conduzcan a una interpretación errónea de la realidad?
¿Alguien podría sugerir otras referencias sobre este tema?
Flujos de trabajo en R:
- PCA (
FactoMineR
oprcomp
) -> Extraer puntajes individuales -> Ingresar puntajes en ellm
- PCA (
FactoMiner
oprcomp
) -> Varimax en la matriz de cargas -> calcular los puntajes individuales -> ingresar puntajes en ellm
- FA (
psych
, método de extracción varimax y pca) -> extraer puntajes individuales -> Ingresar puntajes en ellm
Ahora, sin rotación (1.), los porcentajes de variabilidad explicada son, por ejemplo, 29.32, 5.6, 3.2, en los primeros tres ejes. 2. y 3. las soluciones producen porcentajes similares en los primeros tres factores, es decir, 12.2, 12.1, 8.2. Por supuesto, la solución 1. tiende a empujar todas las cargas variables altas en el primer eje, mientras que 2. y 3. tienden a distribuir las cargas entre los ejes (que es la razón de la rotación). ¿Quería saber si estos tres flujos de trabajo son esenciales, ya que las puntuaciones individuales son diferentes en los ejes rotados y no rotados?
fuente
Respuestas:
Los componentes principales estandarizados (a la varianza de la unidad) después de una rotación ortogonal, como varimax, son simplemente componentes principales estandarizados rotados (por "componente principal" me refiero a las puntuaciones de PC). En la regresión lineal, el escalado de predictores individuales no tiene efecto y el reemplazo de predictores por sus combinaciones lineales (por ejemplo, mediante una rotación) tampoco tiene efecto. Esto significa que usar cualquiera de los siguientes en una regresión:
conduciría a exactamente el mismo modelo de regresión con idéntico , potencia predictiva, etc. (Los coeficientes de regresión individuales dependerán, por supuesto, de la elección de normalización y rotación).R2
La variación total capturada por las PC sin procesar y rotadas es la misma.
Esto responde a tu pregunta principal. Sin embargo, debe tener cuidado con sus flujos de trabajo, ya que es muy fácil confundirse y desordenar los cálculos. La forma más sencilla de obtener puntajes de PC rotados estandarizados es usar la
psych::principal
función:Su flujo de trabajo # 2 puede ser más complicado de lo que piensa, porque las cargas después de la rotación varimax no son ortogonales, por lo que para obtener los puntajes no puede simplemente proyectar los datos en las cargas rotadas. Vea mi respuesta aquí para más detalles:
Su flujo de trabajo # 3 probablemente también sea incorrecto, al menos si se refiere a la
psych::fa
función. No hace PCA; elfm="pa"
método de extracción se refiere al método de "factor principal" que se basa en PCA, pero no es idéntico a PCA (es un método iterativo). Como escribí anteriormente, debepsych::principal
realizar PCA.Vea mi respuesta en el siguiente hilo para obtener una cuenta detallada sobre PCA y varimax:
fuente