Métodos para calcular puntajes de factores, y ¿cuál es la matriz de "coeficiente de puntaje" en PCA o análisis factorial?

20

Según tengo entendido, en PCA basado en correlaciones obtenemos cargas de factores (= componente principal en este caso) que no son más que correlaciones entre variables y factores. Ahora, cuando necesito generar puntajes de factores en SPSS, puedo obtener directamente puntajes de factores de cada encuestado para cada factor. También observé que si multiplico la " matriz de coeficientes de puntaje de componentes " (tal como fue producida por SPSS) con variables originales estandarizadas, obtengo los mismos puntajes de factores obtenidos de SPSS.

¿Puede alguien ayudarme a entender cómo se calcula la "matriz de coeficientes de puntuación de componentes" o la "matriz de coeficientes de puntuación de factores", con la que puedo calcular las puntuaciones de factores o componentes? ¿Cómo difieren los diferentes métodos de puntajes de factores de cálculo en esta matriz?

Kartikeya Pandey
fuente
1
Se da una fórmula, por ejemplo, aquí stats.stackexchange.com/a/92512/3277 .
ttnphns
@amoeba, si uno hace PCA, la palabra "puntaje de factor" significa "puntaje de componente", son equivalentes. Vea la parte inferior de la respuesta vinculada arriba: dentro del modelo PCA, la fórmula que se usa con mayor frecuencia para calcular puntajes de factores en FA produce luego puntajes de componentes exactos (estandarizados).
ttnphns
2
SPSS le muestra la matriz de los coeficientes B y también ahorra puntuaciones (estandarizados) como nuevas variables, añadiéndolos al conjunto de datos de las variables originales X . La OP - Creo - estandarizada X y luego multuplied, XB . Y, ¡voila, es lo que SPSS agregó al conjunto de datos! Entonces, la pregunta del OP es que ¡Guau! seguido de "¿cómo se calculó B ?".
ttnphns
@ttnphs entiendes correctamente lo que quise decir. Pero mi problema es que estaba asumiendo que si estoy usando XB para predecir el factor socre de cada observación, entonces B debería haber sido la carga de factores, pero en SPSS, es "matriz de coeficientes de puntuación de componentes" en lugar de "carga de factores rotados", por eso Quería entender la relación o diferencia entre "carga de factor rotado" y "matriz de coeficientes de puntuación de componentes".
Kartikeya Pandey
Entonces, como entendí por el enlace, solo quiero estar seguro una vez, si A es un factor de carga rotado, entonces (Inverso (A)) 'es "matriz de coeficiente de puntuación del componente" que también se puede calcular usando la fórmula A⋅diag. Inverso ((valores propios))
Kartikeya Pandey

Respuestas:

25

Métodos de cálculo de puntajes de factor / componente

Después de una serie de comentarios, finalmente decidí emitir una respuesta (basada en los comentarios y más). Se trata de calcular las puntuaciones de los componentes en PCA y las puntuaciones de los factores en el análisis factorial.

/ Puntuaciones de los componentes de Factor están dadas por F = X B , donde X son las variables analizadas ( centradas si el análisis PCA / factor se basa en covarianzas o estandarizada-z si se basa en correlaciones). B es la matriz de coeficiente de puntuación de factor / componente (o peso) . ¿Cómo se pueden estimar estos pesos?F^=XBXB

Notación

-matriz de correlaciones o covarianzas variables (ítem), cualquiera que sea el factor / PCA analizado.Rp x p

-matriz de cargas de factor / componente. Estos pueden ser cargas después de la extracción (a menudo también denotado A ) con lo cual los latentes son ortogonales o prácticamente así, o cargas después de la rotación, ortogonales u oblicuas. Si la rotación eraoblicua, deben sercargas depatrón.Pp x mA

-matriz de correlaciones entre los factores / componentes después de su rotación oblicua (las cargas). Si no se realizó rotación o rotación ortogonal, esta es lamatriz deidentidad.Cm x m

-reducida de la matriz de correlaciones reproducidas / covarianzas,=PCP'(=PP'para soluciones ortogonales), contiene comunalidades en su diagonal.R^p x p=PCP=PP

-matriz diagonal de unicidades (unicidad + comunalidad = elemento diagonal de R ). Estoy usando "2" como subíndice aquí en lugar de superíndice ( U 2 ) para facilitar la legibilidad en las fórmulas.U2p x pRU2

-completa matriz de correlaciones reproducidas / covarianzas, = R + U 2 .Rp x p=R^+U2

- pseudoinverso de alguna matriz M ; si M es rango completo, M + = ( M M ) - 1 M .M+MMM+=(MM)1M

- para alguna matriz simétrica cuadrada M su elevación a p o w e r equivale a la descomposición propia H K H = M , elevar los valores propios a la potencia y volver a componer: M p o w e r = H K p o w e r H .MpowerMpowerHKH=MMpower=HKpowerH

Método aproximado para calcular puntajes de factores / componentes

Este enfoque popular / tradicional, a veces llamado Cattell's, es simplemente promediar (o resumir) valores de elementos que se cargan por el mismo factor. Matemáticamente, equivale a establecer pesos en el cálculo de las puntuaciones F = X B . Hay tres versiones principales del enfoque: 1) Usar las cargas como están; 2) Dicotomizarlos (1 = cargado, 0 = no cargado); 3) Use las cargas como son, pero las cargas de cero son más pequeñas que algún umbral.B=PF^=XB

A menudo, con este enfoque cuando los artículos están en la misma unidad de escala, los valores se usan solo en bruto; aunque para no romper la lógica de factorizar, uno usaría mejor la X al ingresar a la factorización: estandarizada (= análisis de correlaciones) o centrada (= análisis de covarianzas).XX

La principal desventaja del método burdo de calcular las puntuaciones de factor / componente en mi opinión es que no tiene en cuenta las correlaciones entre los elementos cargados. Si los elementos cargados por un factor se correlacionan estrechamente y uno se carga más fuerte que el otro, este último puede considerarse razonablemente un duplicado más joven y su peso podría disminuir. Los métodos refinados lo hacen, pero el método grueso no puede.

Los puntajes gruesos son, por supuesto, fáciles de calcular porque no se necesita inversión de matriz. La ventaja del método grueso (que explica por qué todavía se usa ampliamente a pesar de la disponibilidad de las computadoras) es que proporciona puntajes que son más estables de muestra a muestra cuando el muestreo no es ideal (en el sentido de representatividad y tamaño) o los ítems para El análisis no fue bien seleccionado. Para citar un artículo, "El método de puntaje de suma puede ser más deseable cuando las escalas utilizadas para recopilar los datos originales no se han probado y son exploratorias, con poca o ninguna evidencia de confiabilidad o validez". Además , no requiere entender el "factor" necesariamente como un sentido latente univariante, como lo requiere el modelo de análisis factorial ( ver , ver) Podría, por ejemplo, conceptualizar un factor como una colección de fenómenos; luego, sumar los valores de los ítems es razonable.

Métodos refinados para calcular puntajes de factor / componente

Estos métodos son los que hacen los paquetes analíticos de factores. Estiman por varios métodos. Mientras que las cargas A o P son los coeficientes de las combinaciones lineales para predecir variables por factores / componentes, B son los coeficientes para calcular las puntuaciones de los factores / componentes a partir de las variables.BAPB

Los puntajes calculados a través de se escalan: tienen variaciones iguales o cercanas a 1 (estandarizadas o casi estandarizadas), no las variaciones de factores verdaderos (que equivalen a la suma de las cargas de la estructura al cuadrado, vea la Nota 3 aquí ). Por lo tanto, cuando necesite suministrar puntajes de factores con la varianza del factor verdadero, multiplique los puntajes (habiéndolos estandarizado a st.dev. 1) por la raíz cuadrada de esa varianza.B

Puede preservar del análisis realizado, para poder calcular los puntajes de las nuevas observaciones de X que vienen . Además, B se puede usar para ponderar los elementos que constituyen una escala de un cuestionario cuando la escala se desarrolla o valida mediante análisis factorial. Los coeficientes (cuadrados) de B pueden interpretarse como contribuciones de elementos a factores. Los coeficientes se pueden estandarizar como el coeficiente de regresión se estandariza β = b σ i t e mBXBB (dondeσfactor=1) para comparar las contribuciones de los elementos con diferentes variaciones.β=bσitemσfactorσfactor=1

Vea un ejemplo que muestra los cálculos realizados en PCA y en FA, incluido el cálculo de puntajes fuera de la matriz de coeficientes de puntaje.

La explicación geométrica de las cargas '(como coordenadas perpendiculares) y los coeficientes de puntuación b ' (coordenadas oblicuas) en la configuración de PCA se presenta en las dos primeras imágenes aquí .ab

Ahora a los métodos refinados.

Los métodos

Cálculo de en PCAB

Cuando las cargas de componentes se extraen pero no se giran, , donde L es la matriz diagonal compuesta de valores propios; esta fórmula equivale simplemente a dividir cada columna de A por el valor propio respectivo, la varianza del componente.B=AL1LmA

De manera equivalente, . Esta fórmula también es válida para componentes (cargas) rotados, ortogonalmente (como varimax) u oblicuos.B=(P+)

Algunos de los métodos utilizados en el análisis factorial (ver más abajo), si se aplican dentro de PCA devuelven el mismo resultado.

Los puntajes de los componentes calculados tienen variaciones 1 y son verdaderos valores estandarizados de componentes .

Lo que en el análisis de datos estadísticos se denomina matriz de coeficiente de componente principal , y si se calcula a partir de una matriz de carga completa y no rotada, eso en la literatura de aprendizaje automático a menudo se denomina matriz de blanqueamiento (basada en PCA) , y los componentes principales estandarizados son reconocido como datos "blanqueados".Bp x p

Cálculo de en análisis factorial comúnB

A diferencia de puntuaciones de los componentes, factor puntuaciones son nunca más exacta ; son solo aproximaciones a los valores verdaderos desconocidos de los factores. Esto se debe a que no conocemos valores de comunalidades o singularidades a nivel de caso, ya que los factores, a diferencia de los componentes, son variables externas separadas de las manifiestas, y tienen su propia distribución, desconocida para nosotros. Cuál es la causa de la indeterminación de ese factor . Tenga en cuenta que el problema de la indeterminación es lógicamente independiente de la calidad de la solución del factor: cuánto es cierto un factor (corresponde al latente que genera datos en la población) es otro problema que cuánto son verdaderas las puntuaciones de los encuestados de un factor (estimaciones precisas del factor extraído).F

Dado que los puntajes de los factores son aproximaciones, existen métodos alternativos para calcularlos y competir.

El método de regresión o de Thurstone o Thompson para estimar los puntajes de los factores viene dado por , donde S = P C es la matriz de las cargas estructurales (para soluciones de factores ortogonales, sabemos que A = P = S ) La base del método de regresión se encuentra en la nota 1 .B=R1PC=R1SS=PCA=P=S1

Nota. Esta fórmula para se puede usar también con PCA: dará, en PCA, el mismo resultado que las fórmulas citadas en la sección anterior.B

En FA (no PCA), los puntajes de los factores calculados regresivamente no aparecerán "estandarizados", tendrán variaciones no 1, sino iguales a de retroceder estos puntajes por las variables. Este valor puede interpretarse como el grado de determinación de un factor (sus verdaderos valores desconocidos) por variables: el cuadrado R de la predicción del factor real por ellas, y el método de regresión lo maximiza, la "validez" del cálculo puntuaciones. La imagen2muestra la geometría. (Tenga en cuenta queSS r e g rSSregr(n1)2 será igual a la varianza de los puntajes para cualquier método refinado, pero solo para el método de regresión esa cantidad será igual a la proporción de determinación de f real. valores por f. puntuaciones.)SSregr(n1)

Como una variante del método de regresión, uno puede usar en lugar de R en la fórmula. Se justifica porque, en un buen análisis factorial, R y R son muy similares. Sin embargo, cuando no lo son, especialmente cuando la cantidad de factores es menor que la verdadera población, el método produce un fuerte sesgo en las puntuaciones. Y no debe usar este método de "regresión R reproducida" con PCA.RRRRm

R^RB=(P+)C

X^=FPF=(P+)X^XX^FF^X

Tenga en cuenta que este método no transmite las puntuaciones de los componentes de PCA para las puntuaciones de factores, porque las cargas utilizadas no son las cargas de PCA sino el análisis de factores '; solo que el enfoque de cálculo para los puntajes refleja el de PCA.

B=(PU21P)1PU21p

B=(PU21RU21P)1/2PU21

B=R1/2GHC1/2GHsvd(R1/2U21PC1/2)=GΔHmG

GHsvd(R1/2PC3/2)=GΔHmG

Método de Krijnen et al . Este método es una generalización que acomoda los dos anteriores por una sola fórmula. Probablemente no agrega ninguna característica nueva o nueva, por lo que no lo estoy considerando.

Comparación entre los métodos refinados .

  • El método de regresión maximiza la correlación entre los puntajes de los factores y los valores verdaderos desconocidos de ese factor (es decir, maximiza la validez estadística ), pero los puntajes están algo sesgados y se correlacionan incorrectamente entre los factores (por ejemplo, se correlacionan incluso cuando los factores en una solución son ortogonales). Estas son estimaciones de mínimos cuadrados.

  • El método de PCA también es de mínimos cuadrados, pero con menos validez estadística. Son más rápidos de calcular; hoy en día no se usan con frecuencia en el análisis factorial, debido a las computadoras. (En PCA , este método es nativo y óptimo).

  • X

  • Los puntajes de Anderson-Rubin / McDonald-Anderson-Rubin y Green se denominan preservación de correlación porque se calculan para correlacionarse con precisión con puntajes de factores de otros factores. Las correlaciones entre los puntajes de los factores son iguales a las correlaciones entre los factores en la solución (por lo tanto, en una solución ortogonal, por ejemplo, los puntajes estarán perfectamente sin correlación). Pero las puntuaciones son algo sesgadas y su validez puede ser modesta.

Consulte esta tabla también:

ingrese la descripción de la imagen aquí

[Una nota para los usuarios de SPSS: si está haciendo PCA (método de extracción de "componentes principales") pero solicita puntajes de factores distintos al método de "Regresión", el programa ignorará la solicitud y calculará sus puntajes de "Regresión" (que son exactos puntajes de componentes).]

Referencias

  1. Grice, James W. Computing and Evaluating Factor Scores // Psychological Methods 2001, vol. 6, N ° 4, 430-450.

  2. DiStefano, Christine y col. Comprensión y uso de puntajes de factores // Evaluación práctica, investigación y evaluación, Vol. 14, No 20

  3. diez Berge, Jos MFet al. Algunos resultados nuevos sobre métodos de predicción de puntajes de factores de preservación de correlación // Álgebra lineal y sus aplicaciones 289 (1999) 311-318.

  4. Mulaik, Stanley A. Fundamentos del análisis factorial, 2ª edición, 2009

  5. Harman, Harry H. Modern Factor Analysis, 3rd Edition, 1976

  6. Neudecker, Heinz. En la mejor predicción imparcial de preservación de covarianza imparcial de puntajes de factores // SORT 28 (1) enero-junio de 2004, 27-36


1F=b1X1+b2X2s1s2F

s1=b1r11+b2r12

s2=b1r12+b2r22

rXs=RbFbrs


2

ingrese la descripción de la imagen aquí

ttnphns
fuente
3
Buena respuesta, ¡votada! Solo quería decirle que estoy impresionado por su conocimiento de estadísticas, en general, y análisis de factores, en particular. Estaremos encantados de conectarnos con usted en LinkedIn y otras redes sociales. Por cierto, para su información: el enlace al sitio de su empresa en su perfil está roto.
Aleksandr Blekh
XFAFR1A
(I+AU2A)1AU2I
@amoeba, agregué un poco de información a la respuesta, con respecto a tu primer comentario. Para su segundo comentario, lo siento, creo que no puedo responder sin excavar en los libros. Si encuentra la respuesta usted mismo, tenga la amabilidad de dilucidarla para el público. :-)
ttnphns
1
Increíble actualización @ttnphns, buen trabajo. Me di cuenta de que este hilo se ha visto 13k veces, debe tener un alto rango en algunas búsquedas populares de Google.
ameba dice Reinstate Monica
-2

Para hacer PCA en meteorología, los coeficientes de correlación se obtienen usando el coeficiente de correlación de Pearson (si las variables están en unidades diferentes, ya que permite estandarizar los datos para que puedan compararse directamente sin ninguna discrepancia debido a las diferencias de tamaño / magnitud entre los datos, de esa manera, los coeficientes de correlación solo pueden comparar el grado de varianza alrededor de la media, para cada conjunto de datos y entre cada conjunto de datos. De lo contrario, si todos los datos se miden usando la misma unidad, es posible usar el método de covarianza. SPSS lo hace fácil.

Ekta
fuente
1
Es totalmente incomprensible: ¿de qué manera se relaciona la respuesta con la pregunta (es decir, el cálculo de las puntuaciones de los componentes / factores)?
ttnphns
Yn×p=Ep×pTZp×n