Los mejores métodos de extracción de factores en el análisis factorial

29

SPSS ofrece varios métodos de extracción de factores:

  1. Componentes principales (que no es el análisis factorial en absoluto)
  2. Mínimos cuadrados no ponderados
  3. Mínimos cuadrados generalizados
  4. Máxima verosimilitud
  5. Eje principal
  6. Factoring alfa
  7. Factoring de imagen

Ignorando el primer método, que no es el análisis factorial (sino el análisis de componentes principales, PCA), ¿cuál de estos métodos es "el mejor"? ¿Cuáles son las ventajas relativas de los diferentes métodos? Y básicamente, ¿cómo elegiría cuál usar?

Pregunta adicional: ¿se deben obtener resultados similares de los 6 métodos?

Placidia
fuente
Hmm, mi primer impulso: ¿no hay una entrada de wikipedia sobre esto? Si no, seguramente debería existir uno ...
Gottfried Helms
44
Sí, hay un artículo de wikipedia. Dice usar MLE si los datos son normales y PAF de lo contrario. No dice mucho sobre los méritos o no de las otras opciones. En cualquier caso, me encantaría saber qué piensan los miembros de este sitio sobre este tema, en función de su experiencia práctica.
Placidia

Respuestas:

41

Para abreviar. Los dos últimos métodos son muy especiales y diferentes de los números 2-5. Todos se denominan análisis factoriales comunes y, de hecho, se consideran alternativas. La mayoría de las veces, dan resultados bastante similares . Son "comunes" porque representan el modelo de factor clásico , el modelo de factores comunes + factores únicos. Es este modelo el que se usa típicamente en el análisis / validación de cuestionarios.

El eje principal (PAF) , también conocido como factor principal con iteraciones, es el método más antiguo y quizás aún bastante popular. Es aplicación PCA iterativa a la matriz donde las comunalidades se colocan en diagonal en lugar de 1s o de variaciones. Cada siguiente iteración refina así más las comunalidades hasta que convergen. Al hacerlo, el método que busca explicar la varianza, no las correlaciones por pares, eventualmente explica las correlaciones. El método del eje principal tiene la ventaja de que puede, como PCA, analizar no solo correlaciones, sino también covarianzas y otros1Medidas de SSCP (sscp sin procesar, cosenos). Los tres métodos restantes procesan solo correlaciones [en SPSS; las covarianzas podrían analizarse en algunas otras implementaciones]. Este método depende de la calidad de las estimaciones iniciales de las comunidades (y es su desventaja). Por lo general, la correlación / covarianza múltiple al cuadrado se usa como el valor inicial, pero es posible que prefiera otras estimaciones (incluidas las tomadas de investigaciones anteriores). Por favor lea esto para más. Si desea ver un ejemplo de cálculos de factorización del eje principal, comentados y comparados con los cálculos de PCA, mire aquí .

Los mínimos cuadrados ordinarios o no ponderados (ULS) son el algoritmo que apunta directamente a minimizar los residuos entre la matriz de correlación de entrada y la matriz de correlación reproducida (por los factores) (mientras que los elementos diagonales como las sumas de comunalidad y singularidad están destinados a restaurar 1s) . Esta es la tarea directa de FA . El método ULS puede funcionar con una matriz de correlaciones semidefinidas singulares e incluso no positivas, siempre que el número de factores sea menor que su rango, aunque es cuestionable si teóricamente FA es apropiado entonces.2

Los mínimos cuadrados generalizados o ponderados (GLS) son una modificación del anterior. Al minimizar los residuos, pondera los coeficientes de correlación de manera diferencial: las correlaciones entre las variables con alta uniformidad (en la iteración actual) tienen menos peso . Utilice este método si desea que sus factores se ajusten a variables altamente únicas (es decir, aquellas débilmente impulsadas por los factores) peor que las variables altamente comunes (es decir, fuertemente impulsadas por los factores). Este deseo no es infrecuente, especialmente en el proceso de construcción del cuestionario (al menos eso creo), por lo que esta propiedad es ventajosa .34 4

Máxima Verosimilitud (ML)supone que los datos (las correlaciones) provienen de una población que tiene una distribución normal multivariada (otros métodos no hacen tal suposición) y, por lo tanto, los residuos de los coeficientes de correlación deben distribuirse normalmente alrededor de 0. Las cargas se estiman iterativamente por el enfoque ML bajo el supuesto anterior. El tratamiento de las correlaciones se pondera por uniqness de la misma manera que en el método de mínimos cuadrados generalizados. Mientras que otros métodos simplemente analizan la muestra tal como es, el método de ML permite alguna inferencia sobre la población, generalmente se calculan una serie de índices de ajuste e intervalos de confianza junto con él [desafortunadamente, en su mayoría no en SPSS, aunque la gente escribió macros para SPSS que sí lo hacen eso].

Todos los métodos que describí brevemente son lineales, modelo latente continuo. "Lineal" implica que las correlaciones de rango, por ejemplo, no deben analizarse. "Continuo" implica que los datos binarios, por ejemplo, no deben analizarse (IRT o FA basados ​​en correlaciones tetracóricas serían más apropiados).


1 Debido a que la matriz de correlación (o covarianza) , - después de colocar las comunalidades iniciales en su diagonal, generalmente tendrá algunos valores propios negativos, estos deben mantenerse limpios; por lo tanto, la PCA debe realizarse mediante descomposición propia, no SVD.R

2 método ULS incluye la descomposición eigen iterativa de la matriz de correlación reducida, como PAF, pero dentro de un procedimiento de optimización Newton-Raphson más complejo con el objetivo de encontrar variaciones únicas ( , unicidades) en las que las correlaciones se reconstruyen al máximo. Al hacerlo, ULS parece equivalente al método llamado MINRES (solo las cargas extraídas aparecen algo rotadas ortogonalmente en comparación con MINRES), que se sabe que minimiza directamente la suma de los residuos cuadrados de las correlaciones.tu2

3 algoritmos GLS y ML son básicamente como ULS, pero la descomposición propia en las iteraciones se realiza en la matriz (o en ), para incorporar singularidades como pesas ML difiere de GLS en la adopción del conocimiento de la tendencia de valor propio esperado bajo distribución normal.tuR-1tutu-1Rtu-1

4 4 El hecho de que se permita que las correlaciones producidas por variables menos comunes se ajusten peor (supongo) puede dar lugar a la presencia de correlaciones parciales (que no necesitan ser explicadas), lo que parece agradable. El modelo de factor común puro "no espera" correlaciones parciales, lo cual no es muy realista.

ingrese la descripción de la imagen aquí

ttnphns
fuente
Creo que uno debería agregar más aspectos: si usamos los métodos para ajustar una solución de factores a una cantidad de factores previamente especificada, o si la cantidad de factores debería surgir de los datos, por algún criterio (valor propio, prueba de detección, ...) . Según tengo entendido, el ML solo es sensitivo si especifica previamente una serie de factores, y luego se buscará una solución de factores, e incluso es posible una prueba de chi-cuadrado. PCA permite que el número de factores aparezca dinámicamente por las propiedades de datos, dado algún criterio, sin prueba de chi-cuadrado. PAF se puede usar de ambas maneras.
Gottfried Helms
1
@Gottfried, prefiero no estar de acuerdo con la forma en que lo expresas. Todos los métodos FA requieren que el número de factores m conocerse: encaja en el modelo para m que se especifique. Puede usar varios criterios que pueden ayudar a decidir sobre m , pero todos estos no son parte de los métodos de extracción de factores. Con la excepción de ese chi-cuadrado, calculado junto con los métodos GLS y ML. Además, con el método PA, si se sabe de antemano verdaderos comunalidades (que es muy rara vez), se puede hacer de ellos a guiarlo hacia la mejor m . Pero, en cualquier caso, usted, no un algoritmo de extracción, decide m .
ttnphns
¿Ahora qué debemos usar? ¿Cuál es el mejor?
MrYouMath
1
Lo mejor es lo que más te gusta. Usted elige, luego, si es necesario, explica por qué le conviene. Como en todas partes.
ttnphns
@ ttnphns, ¿hay un principio de when to use which?
kittygirl