Uso de componentes de PCA rotados con varimax como predictores en regresión lineal

8

Después de hacer PCA, el primer componente describe la mayor parte de la variabilidad. Esto es importante, por ejemplo, en el estudio de mediciones corporales donde se sabe comúnmente (Jolliffe, 2002) que el eje PC1 captura la variación de tamaño. Mi pregunta es si las puntuaciones de PCA después de la rotación varimax conservan las mismas propiedades o son diferentes como se menciona en este tema .

Dado que necesito puntajes de PCA para análisis estadísticos adicionales, me pregunto si se necesita varimax y, de hecho, ¿interrumpe la representación de la variabilidad de la muestra real para que los puntajes individuales en los ejes rotados no sean informativos o conduzcan a una interpretación errónea de la realidad?

¿Alguien podría sugerir otras referencias sobre este tema?

Flujos de trabajo en R:

  1. PCA ( FactoMineRo prcomp) -> Extraer puntajes individuales -> Ingresar puntajes en ellm
  2. PCA ( FactoMinero prcomp) -> Varimax en la matriz de cargas -> calcular los puntajes individuales -> ingresar puntajes en ellm
  3. FA ( psych, método de extracción varimax y pca) -> extraer puntajes individuales -> Ingresar puntajes en ellm

Ahora, sin rotación (1.), los porcentajes de variabilidad explicada son, por ejemplo, 29.32, 5.6, 3.2, en los primeros tres ejes. 2. y 3. las soluciones producen porcentajes similares en los primeros tres factores, es decir, 12.2, 12.1, 8.2. Por supuesto, la solución 1. tiende a empujar todas las cargas variables altas en el primer eje, mientras que 2. y 3. tienden a distribuir las cargas entre los ejes (que es la razón de la rotación). ¿Quería saber si estos tres flujos de trabajo son esenciales, ya que las puntuaciones individuales son diferentes en los ejes rotados y no rotados?

Fedja Blagojevic
fuente
El propósito de la rotación es compartir la variabilidad entre los componentes, por lo que ya no es así. No estoy seguro de qué quiere decir con "interrumpir la representación de la variabilidad de la muestra real", pero la rotación no cambia la proporción de varianza explicada en cada elemento por los componentes.
Jeremy Miles
2
La rotación se realiza únicamente por el bien de la interpretación de los componentes. La interpretación es necesaria únicamente en el contexto del "modelo de variable latente", es decir, cuando se trata un componente como un factor , = se toma PCA como análisis factorial [una decisión permisible aunque controvertida]. ¿Es ese tu caso?
ttnphns
1
Como se citó correctamente aquí , después de la rotación, los componentes ya no pueden ordenarse jerárquicamente (el primero es el más fuerte, el segundo es el siguiente ...). Pero en general (multivariablemente), no se pierde información en la rotación; entonces las puntuaciones de todos los componentes extraídos juntos son tan valiosos después de la rotación como antes de la rotación.
ttnphns
Solo necesitaba estar seguro de algo y he publicado mi flujo de trabajo en R.
Fedja Blagojevic
Sí, de hecho, uso PCA como EFA, pero también lo he intentado con EFA.
Fedja Blagojevic

Respuestas:

7

Los componentes principales estandarizados (a la varianza de la unidad) después de una rotación ortogonal, como varimax, son simplemente componentes principales estandarizados rotados (por "componente principal" me refiero a las puntuaciones de PC). En la regresión lineal, el escalado de predictores individuales no tiene efecto y el reemplazo de predictores por sus combinaciones lineales (por ejemplo, mediante una rotación) tampoco tiene efecto. Esto significa que usar cualquiera de los siguientes en una regresión:

  • componentes principales "en bruto" (proyecciones en los vectores propios de la matriz cov.),
  • componentes principales estandarizados,
  • componentes principales rotados [estandarizados],
  • componentes principales rotados [estandarizados] escalados arbitrariamente,

conduciría a exactamente el mismo modelo de regresión con idéntico , potencia predictiva, etc. (Los coeficientes de regresión individuales dependerán, por supuesto, de la elección de normalización y rotación).R2

La variación total capturada por las PC sin procesar y rotadas es la misma.

Esto responde a tu pregunta principal. Sin embargo, debe tener cuidado con sus flujos de trabajo, ya que es muy fácil confundirse y desordenar los cálculos. La forma más sencilla de obtener puntajes de PC rotados estandarizados es usar la psych::principalfunción:

 psych::principal(data, rotate="varimax", nfactors=k, scores=TRUE)

Su flujo de trabajo # 2 puede ser más complicado de lo que piensa, porque las cargas después de la rotación varimax no son ortogonales, por lo que para obtener los puntajes no puede simplemente proyectar los datos en las cargas rotadas. Vea mi respuesta aquí para más detalles:

Su flujo de trabajo # 3 probablemente también sea incorrecto, al menos si se refiere a la psych::fafunción. No hace PCA; el fm="pa"método de extracción se refiere al método de "factor principal" que se basa en PCA, pero no es idéntico a PCA (es un método iterativo). Como escribí anteriormente, debe psych::principalrealizar PCA.

Vea mi respuesta en el siguiente hilo para obtener una cuenta detallada sobre PCA y varimax:

ameba
fuente
Gracias por las amables palabras, @Cbhihe. Estoy bastante seguro de que los mods no pueden marcar ninguna respuesta como aceptada. Si desea comunicarse con el OP (Fedja), debe comentar bajo su pregunta y no bajo mi respuesta; entonces él será notificado de tu comentario. Parece que todavía está activo en SE ("visto por última vez" en SO hoy).
ameba
@Mods, ¿puede hacer que esta respuesta sea "aceptada" sin que OP acumule puntos (en buena medida, ya que OP ha descuidado hacerlo)? Sería un servicio a la comunidad. Si no es posible que los mods hagan esto, comenzaré un hilo en meta para discutir este tipo de situación en la que OP descuida una respuesta MUY buena y, por lo tanto, se vuelve menos visible. Por último, pero no menos importante: gracias, ameba. +1
Cbhihe
@Cbhihe Realmente no es posible. Entonces, si desea iniciar un hilo Meta, puede seguir adelante, podría ser una discusión interesante.
ameba
tienes razón sobre las modificaciones que no están listas para actuar en lugar de OP en ese caso. Existen bastantes meta-publicaciones sobre ese tema y el problema ha continuado durante tanto tiempo como SE ha existido, por lo que puedo decir. Un problema real sin una buena solución. Lástima. Salud.
Cbhihe