Métodos para calcular puntajes de factores, y ¿cuál es la matriz de "coeficiente de puntaje" en PCA o análisis factorial?

Métodos de cálculo de puntajes de factor / componente

Después de una serie de comentarios, finalmente decidí emitir una respuesta (basada en los comentarios y más). Se trata de calcular las puntuaciones de los componentes en PCA y las puntuaciones de los factores en el análisis factorial.

/ Puntuaciones de los componentes de Factor están dadas por , donde son las variables analizadas ( centradas si el análisis PCA / factor se basa en covarianzas o estandarizada-z si se basa en correlaciones). es la matriz de coeficiente de puntuación de factor / componente (o peso) . ¿Cómo se pueden estimar estos pesos? $\bf \hat{F}=XB$ $\bf X$ $\bf B$

Notación

-matriz de correlaciones o covarianzas variables (ítem), cualquiera que sea el factor / PCA analizado. $\bf R$ p x p

-matriz de cargas de factor / componente. Estos pueden ser cargas después de la extracción (a menudo también denotado ) con lo cual los latentes son ortogonales o prácticamente así, o cargas después de la rotación, ortogonales u oblicuas. Si la rotación eraoblicua, deben sercargas depatrón. $\bf P$ p x m $\bf A$

-matriz de correlaciones entre los factores / componentes después de su rotación oblicua (las cargas). Si no se realizó rotación o rotación ortogonal, esta es lamatriz deidentidad. $\bf C$ m x m

-reducida de la matriz de correlaciones reproducidas / covarianzas,(para soluciones ortogonales), contiene comunalidades en su diagonal. $\bf \hat R$ p x p $\bf = PCP'$ $\bf = PP'$

-matriz diagonal de unicidades (unicidad + comunalidad = elemento diagonal de ). Estoy usando "2" como subíndice aquí en lugar de superíndice ( ) para facilitar la legibilidad en las fórmulas. $\bf U_2$ p x p $\bf R$ $\bf U^2$

-completa matriz de correlaciones reproducidas / . $\bf R^*$ p x p $\bf = \hat R + U_2$

- pseudoinverso de alguna matriz ; si es rango completo, . $\bf M^+$ $\bf M$ $\bf M$ $\bf M^+ = (M'M)^{-1}M'$

- para alguna matriz simétrica cuadrada su elevación a equivale a la descomposición propia , elevar los valores propios a la potencia y volver a componer: . $\bf M^{power}$ $\bf M$ $power$ $\bf HKH'=M$ $\bf M^{power}=HK^{power}H'$

Método aproximado para calcular puntajes de factores / componentes

Este enfoque popular / tradicional, a veces llamado Cattell's, es simplemente promediar (o resumir) valores de elementos que se cargan por el mismo factor. Matemáticamente, equivale a establecer pesos en el cálculo de las puntuaciones . Hay tres versiones principales del enfoque: 1) Usar las cargas como están; 2) Dicotomizarlos (1 = cargado, 0 = no cargado); 3) Use las cargas como son, pero las cargas de cero son más pequeñas que algún umbral. $\bf B=P$ $\bf \hat{F}=XB$

A menudo, con este enfoque cuando los artículos están en la misma unidad de escala, los valores se usan solo en bruto; aunque para no romper la lógica de factorizar, uno usaría mejor la al ingresar a la factorización: estandarizada (= análisis de correlaciones) o centrada (= análisis de covarianzas). $\bf X$ $\bf X$

La principal desventaja del método burdo de calcular las puntuaciones de factor / componente en mi opinión es que no tiene en cuenta las correlaciones entre los elementos cargados. Si los elementos cargados por un factor se correlacionan estrechamente y uno se carga más fuerte que el otro, este último puede considerarse razonablemente un duplicado más joven y su peso podría disminuir. Los métodos refinados lo hacen, pero el método grueso no puede.

Los puntajes gruesos son, por supuesto, fáciles de calcular porque no se necesita inversión de matriz. La ventaja del método grueso (que explica por qué todavía se usa ampliamente a pesar de la disponibilidad de las computadoras) es que proporciona puntajes que son más estables de muestra a muestra cuando el muestreo no es ideal (en el sentido de representatividad y tamaño) o los ítems para El análisis no fue bien seleccionado. Para citar un artículo, "El método de puntaje de suma puede ser más deseable cuando las escalas utilizadas para recopilar los datos originales no se han probado y son exploratorias, con poca o ninguna evidencia de confiabilidad o validez". Además , no requiere entender el "factor" necesariamente como un sentido latente univariante, como lo requiere el modelo de análisis factorial ( ver , ver) Podría, por ejemplo, conceptualizar un factor como una colección de fenómenos; luego, sumar los valores de los ítems es razonable.

Métodos refinados para calcular puntajes de factor / componente

Estos métodos son los que hacen los paquetes analíticos de factores. Estiman por varios métodos. Mientras que las cargas o son los coeficientes de las combinaciones lineales para predecir variables por factores / componentes, son los coeficientes para calcular las puntuaciones de los factores / componentes a partir de las variables. $\bf B$ $\bf A$ $\bf P$ $\bf B$

Los puntajes calculados a través de se escalan: tienen variaciones iguales o cercanas a 1 (estandarizadas o casi estandarizadas), no las variaciones de factores verdaderos (que equivalen a la suma de las cargas de la estructura al cuadrado, vea la Nota 3 aquí ). Por lo tanto, cuando necesite suministrar puntajes de factores con la varianza del factor verdadero, multiplique los puntajes (habiéndolos estandarizado a st.dev. 1) por la raíz cuadrada de esa varianza. $\bf B$

Puede preservar del análisis realizado, para poder calcular los puntajes de las nuevas observaciones de vienen . Además, se puede usar para ponderar los elementos que constituyen una escala de un cuestionario cuando la escala se desarrolla o valida mediante análisis factorial. Los coeficientes (cuadrados) de pueden interpretarse como contribuciones de elementos a factores. Los coeficientes se pueden estandarizar como el coeficiente de regresión se estandariza $\bf B$ $\bf X$ $\bf B$ $\bf B$ (donde) para comparar las contribuciones de los elementos con diferentes variaciones. $\beta=b \frac{\sigma_{item}}{\sigma_{factor}}$ $\sigma_{factor}=1$

Vea un ejemplo que muestra los cálculos realizados en PCA y en FA, incluido el cálculo de puntajes fuera de la matriz de coeficientes de puntaje.

La explicación geométrica de las cargas '(como coordenadas perpendiculares) y los coeficientes de puntuación ' (coordenadas oblicuas) en la configuración de PCA se presenta en las dos primeras imágenes aquí . $a$ $b$

Ahora a los métodos refinados.

Los métodos

Cálculo de en PCA $\bf B$

Cuando las cargas de componentes se extraen pero no se giran, , donde es la matriz diagonal compuesta de valores propios; esta fórmula equivale simplemente a dividir cada columna de por el valor propio respectivo, la varianza del componente. $\bf B= AL^{-1}$ $\bf L$ m $\bf A$

De manera equivalente, . Esta fórmula también es válida para componentes (cargas) rotados, ortogonalmente (como varimax) u oblicuos. $\bf B= (P^+)'$

Algunos de los métodos utilizados en el análisis factorial (ver más abajo), si se aplican dentro de PCA devuelven el mismo resultado.

Los puntajes de los componentes calculados tienen variaciones 1 y son verdaderos valores estandarizados de componentes .

Lo que en el análisis de datos estadísticos se denomina matriz de coeficiente de componente principal , y si se calcula a partir de una matriz de carga completa y no rotada, eso en la literatura de aprendizaje automático a menudo se denomina matriz de blanqueamiento (basada en PCA) , y los componentes principales estandarizados son reconocido como datos "blanqueados". $\bf B$ p x p

Cálculo de en análisis factorial común $\bf B$

A diferencia de puntuaciones de los componentes, factor puntuaciones son nunca más exacta ; son solo aproximaciones a los valores verdaderos desconocidos de los factores. Esto se debe a que no conocemos valores de comunalidades o singularidades a nivel de caso, ya que los factores, a diferencia de los componentes, son variables externas separadas de las manifiestas, y tienen su propia distribución, desconocida para nosotros. Cuál es la causa de la indeterminación de ese factor . Tenga en cuenta que el problema de la indeterminación es lógicamente independiente de la calidad de la solución del factor: cuánto es cierto un factor (corresponde al latente que genera datos en la población) es otro problema que cuánto son verdaderas las puntuaciones de los encuestados de un factor (estimaciones precisas del factor extraído). $\bf F$

Dado que los puntajes de los factores son aproximaciones, existen métodos alternativos para calcularlos y competir.

El método de regresión o de Thurstone o Thompson para estimar los puntajes de los factores viene dado por , donde es la matriz de las cargas estructurales (para soluciones de factores ortogonales, sabemos que ) La base del método de regresión se encuentra en la nota . $\bf B=R^{-1} PC = R^{-1} S$ $\bf S=PC$ $\bf A=P=S$ $^1$

Nota. Esta fórmula para se puede usar también con PCA: dará, en PCA, el mismo resultado que las fórmulas citadas en la sección anterior. $\bf B$

En FA (no PCA), los puntajes de los factores calculados regresivamente no aparecerán "estandarizados", tendrán variaciones no 1, sino iguales a de retroceder estos puntajes por las variables. Este valor puede interpretarse como el grado de determinación de un factor (sus verdaderos valores desconocidos) por variables: el cuadrado R de la predicción del factor real por ellas, y el método de regresión lo maximiza, la "validez" del cálculo puntuaciones. La imagenmuestra la geometría. (Tenga en cuenta que $\frac {SS_{regr}}{(n-1)}$ $^2$ será igual a la varianza de los puntajes para cualquier método refinado, pero solo para el método de regresión esa cantidad será igual a la proporción de determinación de f real. valores por f. puntuaciones.) $\frac {SS_{regr}}{(n-1)}$

Como una variante del método de regresión, uno puede usar en lugar de en la fórmula. Se justifica porque, en un buen análisis factorial, y son muy similares. Sin embargo, cuando no lo son, especialmente cuando la cantidad de factores es menor que la verdadera población, el método produce un fuerte sesgo en las puntuaciones. Y no debe usar este método de "regresión R reproducida" con PCA. $\bf R^*$ $\bf R$ $\bf R$ $\bf R^*$ m

$\bf \hat R$ $\bf R$ $\bf B= (P^+)'$ $\bf C$

$\bf \hat X = FP'$ $\bf F= (P^+)' \hat X$ $\bf X$ $\bf \hat X$ $\bf F$ $\bf \hat F$ $\bf X$

Tenga en cuenta que este método no transmite las puntuaciones de los componentes de PCA para las puntuaciones de factores, porque las cargas utilizadas no son las cargas de PCA sino el análisis de factores '; solo que el enfoque de cálculo para los puntajes refleja el de PCA.

$\bf B'=(P'U_2^{-1}P)^{-1} P' U_2^{-1}$ p

$\bf B'=(P'U_2^{-1}RU_2^{-1}P)^{-1/2} P'U_2^{-1}$

$\bf B= R^{-1/2} GH' C^{1/2}$ $\bf G$ $\bf H$ $\text{svd} \bf (R^{1/2}U_2^{-1}PC^{1/2}) = G \Delta H'$ m $\bf G$

$\bf G$ $\bf H$ $\text{svd} \bf (R^{-1/2}PC^{3/2}) = G \Delta H'$ m $\bf G$

Método de Krijnen et al . Este método es una generalización que acomoda los dos anteriores por una sola fórmula. Probablemente no agrega ninguna característica nueva o nueva, por lo que no lo estoy considerando.

Comparación entre los métodos refinados .

El método de regresión maximiza la correlación entre los puntajes de los factores y los valores verdaderos desconocidos de ese factor (es decir, maximiza la validez estadística ), pero los puntajes están algo sesgados y se correlacionan incorrectamente entre los factores (por ejemplo, se correlacionan incluso cuando los factores en una solución son ortogonales). Estas son estimaciones de mínimos cuadrados.
El método de PCA también es de mínimos cuadrados, pero con menos validez estadística. Son más rápidos de calcular; hoy en día no se usan con frecuencia en el análisis factorial, debido a las computadoras. (En PCA , este método es nativo y óptimo).
$\bf X$
Los puntajes de Anderson-Rubin / McDonald-Anderson-Rubin y Green se denominan preservación de correlación porque se calculan para correlacionarse con precisión con puntajes de factores de otros factores. Las correlaciones entre los puntajes de los factores son iguales a las correlaciones entre los factores en la solución (por lo tanto, en una solución ortogonal, por ejemplo, los puntajes estarán perfectamente sin correlación). Pero las puntuaciones son algo sesgadas y su validez puede ser modesta.

Consulte esta tabla también:

[Una nota para los usuarios de SPSS: si está haciendo PCA (método de extracción de "componentes principales") pero solicita puntajes de factores distintos al método de "Regresión", el programa ignorará la solicitud y calculará sus puntajes de "Regresión" (que son exactos puntajes de componentes).]

Referencias

Grice, James W. Computing and Evaluating Factor Scores // Psychological Methods 2001, vol. 6, N ° 4, 430-450.
DiStefano, Christine y col. Comprensión y uso de puntajes de factores // Evaluación práctica, investigación y evaluación, Vol. 14, No 20
diez Berge, Jos MFet al. Algunos resultados nuevos sobre métodos de predicción de puntajes de factores de preservación de correlación // Álgebra lineal y sus aplicaciones 289 (1999) 311-318.
Mulaik, Stanley A. Fundamentos del análisis factorial, 2ª edición, 2009
Harman, Harry H. Modern Factor Analysis, 3rd Edition, 1976
Neudecker, Heinz. En la mejor predicción imparcial de preservación de covarianza imparcial de puntajes de factores // SORT 28 (1) enero-junio de 2004, 27-36

$^1$ $F=b_1X_1+b_2X_2$ $s_1$ $s_2$ $F$

$s_1=b_1r_{11}+b_2r_{12}$

$s_2=b_1r_{12}+b_2r_{22}$

$r$ $X$ $\bf s=Rb$ $F$ $b$ $r$ $s$

$^2$

ingrese la descripción de la imagen aquí

ttnphns
fuente

Buena respuesta, ¡votada! Solo quería decirle que estoy impresionado por su conocimiento de estadísticas, en general, y análisis de factores, en particular. Estaremos encantados de conectarnos con usted en LinkedIn y otras redes sociales. Por cierto, para su información: el enlace al sitio de su empresa en su perfil está roto.

Aleksandr Blekh

X

$\bf X$

F A

$\bf F \bf A$

F

$\bf F$

R^{- 1} A

$\bf R^{-1} \bf A$

(I + A^{⊤} U^{- 2} A)^{- 1} A^{⊤} U^{- 2}

$(\bf I + \bf A^\top \bf U^{-2} \bf A)^{-1} \bf A^\top \bf U^{-2}$

I

$\bf I$

@amoeba, agregué un poco de información a la respuesta, con respecto a tu primer comentario. Para su segundo comentario, lo siento, creo que no puedo responder sin excavar en los libros. Si encuentra la respuesta usted mismo, tenga la amabilidad de dilucidarla para el público. :-)

ttnphns

Increíble actualización @ttnphns, buen trabajo. Me di cuenta de que este hilo se ha visto 13k veces, debe tener un alto rango en algunas búsquedas populares de Google.

ameba dice Reinstate Monica