¿Qué maximizan los primeros factores del análisis factorial?

12

En el análisis de componentes principales, los primeros componentes principales son las direcciones ortogonales con la varianza máxima. En otras palabras, el primer componente principal se elige como la dirección de la varianza máxima, el segundo componente principal se elige como la dirección ortogonal al primero con la varianza máxima, y ​​así sucesivamente.kkk

¿Existe una interpretación similar para el análisis factorial? Por ejemplo, estoy pensando que los primeros factores son los factores que mejor explican los componentes fuera de la diagonal de la matriz de correlación original (en el sentido, por ejemplo, de error al cuadrado entre la matriz de correlación original y la matriz de correlación definida por el factores). ¿Es esto cierto (o hay algo similar que podamos decir)?k

raegtin
fuente
Si bien estoy de acuerdo con casi todo lo que @NRH escribió en su respuesta (+1), la respuesta corta a su última pregunta es que sí, es exactamente cierto . Tenga en cuenta que en FA los factores también se pueden elegir para ser ortogonales, como en PCA. La diferencia está solo en reproducir toda la matriz de correlación (PCA) versus reproducir solo su parte fuera de diagonal (FA). Para una discusión más larga, vea mis respuestas en Condiciones para similitud de PCA y Análisis factorial y ¿Hay alguna buena razón para usar PCA en lugar de EFA?
ameba dice Reinstate Monica
No estoy seguro de si realmente FA "minimiza las covarianzas parciales (suma de) al cuadrado", porque hay un criterio de rotación / extracción llamado "MinRes" cuya razón es exactamente esto. Entonces, ¿por qué darle un nombre distintivo? Tal vez las rutinas estándar para encontrar matemáticamente la solución FA obtengan resultados idénticos si el número de factores k reproduce las covarianzas perfectamente, pero dado que k es una estimación, podría ser que en el caso de imperfección / subestimación la solución FA no sea idéntico a la solución MinRes. Bueno, digo: podría ser , me gustaría ver una declaración explícita.
Gottfried Helms

Respuestas:

7

PCA es principalmente una técnica de reducción de datos donde el objetivo es obtener una proyección de datos en un espacio dimensional inferior. Dos objetivos equivalentes son maximizar de manera iterativa la varianza o minimizar el error de reconstrucción. En realidad, esto se resuelve con algunos detalles en las respuestas a esta pregunta anterior .

En contraste, el análisis factorial es principalmente un modelo generativo de un -dimensional vector de datos diciendo que donde es la vector dimensional de factores latentes, es con y es un vector de errores no correlacionados. La matriz es la matriz de cargas factoriales . Esto produce una parametrización especial de la matriz de covarianza como El problema con este modelo es que está sobreparamizado. Se obtiene el mismo modelo si se reemplaza porpX

X=AS+ϵ
SqAp×kk<pϵA
Σ=AAT+D
AAR para cualquier matriz ortogonal , lo que significa que los factores en sí no son únicos. Existen varias sugerencias para resolver este problema, pero hay no una solución única que le da factores con el tipo de interpretación que pide. Una opción popular es la rotación varimax . Sin embargo, el criterio utilizado solo determina la rotación. El espacio de columna abarcado por no cambia, y dado que esto es parte de la parametrización, se determina por cualquier método que se use para estimar , por ejemplo, por la máxima probabilidad en un modelo gaussiano.k×kRAΣ

Por lo tanto, para responder la pregunta, los factores elegidos no se dan automáticamente al usar un modelo de análisis factorial, por lo que no hay una interpretación única de los primeros factores. Debe especificar el método utilizado para estimar (el espacio de columna de) y el método utilizado para elegir la rotación. Si (todos los errores tienen la misma varianza), la solución MLE para el espacio de la columna de es el espacio abarcado por los principales vectores componentes principales, que se pueden encontrar mediante una descomposición de valores singulares. Por supuesto, es posible elegir no rotar e informar estos vectores componentes principales como factores. kAD=σ2IAq

Editar: para enfatizar cómo lo veo, el modelo de análisis factorial es un modelo de la matriz de covarianza como una matriz de rango más una matriz diagonal. Por lo tanto, el objetivo con el modelo es explicar mejor la covarianza con dicha estructura en la matriz de covarianza. La interpretación es que dicha estructura en la matriz de covarianza es compatible con un factor dimensional no observado . Desafortunadamente, los factores no pueden recuperarse de manera única, y la forma en que pueden elegirse dentro del conjunto de posibles factores no se relaciona de ninguna manera con la explicación de los datos. Como es el caso con PCA, uno puede estandarizar los datos por adelantado y así ajustar un modelo que intenta explicar la matriz de correlación como un rango más una matriz diagonal. kkk

NRH
fuente
1
Sí, entiendo que no hay una elección única de k factores (ya que podemos rotarlos y obtener el mismo modelo). Pero, ¿alguna elección de k factores seleccionados por análisis factorial hace algún tipo de "explicación máxima de correlación"?
raegtin
1
@raegtin, he editado la respuesta para explicar mi punto de vista, que este es un modelo de la matriz de covarianza. Cualquier elección de factores obtenidos por las rotaciones es, a mi entender, igualmente buena o mala para explicar las covarianzas en los datos, ya que producen la misma matriz de covarianza.
NRH
1
¡Gracias por la actualización, esta es una gran explicación de FA! Entonces, cuando dice "el objetivo con el modelo es explicar mejor la covarianza", ¿quiere decir que los factores k realmente maximizan la cantidad de covarianza explicada?
raegtin
1
@raegtin, sí, veo el modelo como un modelo de la matriz de covarianza, y cuando calcula el modelo, es justo decir que está maximizando la cantidad de covarianza explicada.
NRH
@raegtin y NRH (+1 por cierto): Solo para aclarar. Los dos comentarios anteriores son correctos si por "covarianza" entendemos la "parte fuera de la diagonal de la matriz de covarianza".
ameba dice Reinstate Monica
3

@RAEGTIN, creo que piensas bien. Después de la extracción y la rotación previa, cada factor sucesivo representa cada vez menos covarianza / correlación, al igual que cada componente sucesivo explica cada vez menos varianza: en ambos casos, las columnas de una matriz de carga A van en el orden de caída de suma de elementos cuadrados (cargas) en ellos. La carga es correlación bw factor y variable; por lo tanto, se puede decir que el primer factor explica la mayor porción de r "cuadrado" general en la matriz R , el segundo factor es el segundo aquí, etc. Sin embargo, la diferencia entre FA y PCA, al predecir correlaciones por cargas es la siguiente: FA está "calibrado" para restaurar Rbastante finamente con solo m factores extraídos (m factores <p variables), mientras que PCA es grosero al restaurarlo con m componentes, necesita todos los componentes p para restaurar R sin error.

PD: Solo para agregar. En FA, un valor de carga "consiste" en una comunalidad limpia (una parte de la varianza responsable de la correlación), mientras que en PCA una carga es una mezcla de comunalidad y unicidad de la variable y, por lo tanto, toma la variabilidad.

ttnphns
fuente