¿Bajo qué condiciones PCA y FA producen resultados similares?

¿En qué condiciones se puede esperar que el análisis de componentes principales (PCA) y el análisis factorial (FA) produzcan resultados similares?

pca factor-analysis estadísticas
fuente

Dejar

L

$\bf L$ sean las cargas (no los vectores propios) de los p-múltimos componentes principales: los que se caen en PCA ( pes el número de variables y mes el número de componentes o factores que decidió extraer). Si

L L^{'}

$\bf LL'$ es casi diagonal, entonces los resultados de su PCA son similares a los resultados de FA. Algunas preguntas para que lea: stats.stackexchange.com/q/123063/3277 , stats.stackexchange.com/q/94048/3277 .

ttnphns

En otras palabras: cuando PCA aísla el ruido específico de la señal de la variable (factores comunes) con tanto éxito como el análisis factorial lo hace regularmente. PCA, a diferencia de FA, no está destinado a hacer este trabajo, sin embargo, en algunas condiciones, a menudo parece que lo hace. Algunas de estas condiciones: 1) pes grande; 2) el ruido es pequeño para todas las variables; 3) el ruido es casi igual para todas las variables.

ttnphns

Esta es una excelente pregunta, pero desafortunadamente (¿o quizás afortunadamente?) Recientemente he escrito una respuesta muy larga en un hilo relacionado , abordando su pregunta casi exactamente. Le pediría amablemente que mire allí y vea si eso responde a su pregunta.

Muy brevemente, si solo nos centramos en las cargas de PCA y FA $\mathbf W$ , entonces la diferencia es que PCA encuentra $\mathbf W$ para reconstruir la matriz de covarianza de muestra (o correlación) $\mathbf C$ Tan cerca como sea posible:

C \approx W W^{⊤},

$\mathbf C \approx \mathbf W \mathbf W^\top,$ mientras que FA encuentra

W

$\mathbf W$ para reconstruir la parte fuera de la diagonal de la matriz de covarianza (o correlación) solamente:

o f f d i a g {C} \approx W W^{⊤} .

$\mathrm{offdiag}\{\mathbf C\} \approx \mathbf W \mathbf W^\top.$ Con esto quiero decir que a FA no le importa qué valores

W W^{⊤}

$\mathbf W \mathbf W^\top$ tiene en la diagonal, solo se preocupa por la parte fuera de la diagonal.

Con esto en mente, la respuesta a su pregunta se vuelve fácil de ver. Si el numero $n$ de variables (tamaño de $\mathbf C$ ) es grande, entonces la parte fuera de diagonal de $\mathbf C$ es casi toda la matriz (la diagonal tiene tamaño $n$ y todo el tamaño de la matriz $n^2$ , entonces la contribución de la diagonal es solo $1/n \to 0$ ), por lo que podemos esperar que PCA se aproxime bien a FA. Si los valores diagonales son bastante pequeños, entonces nuevamente no juegan mucho papel para PCA, y PCA termina estando cerca de FA, exactamente como @ttnphns dijo anteriormente.

Si, por otro lado, $\mathbf C$ es pequeño o está fuertemente dominado por la diagonal (en particular si tiene valores muy diferentes en la diagonal), entonces PCA tendrá que sesgar $\mathbf W$ hacia la reproducción de la diagonal también, y así terminará siendo bastante diferente de FA. Un ejemplo se da en este hilo:

¿Por qué PCA y Factor Analysis devuelven resultados diferentes en este ejemplo?

ameba
fuente

En su respuesta, declara que `` minimizar

| | C - W W^{T} - Ψ | |^{2}

$||C−WW^T−\Psi||^2$ '' produce las cargas de análisis factorial. (Yo interpreto

| | ∙ | |^{2}

$||\bullet||^2$ como la norma al cuadrado de Frobenius.) ¿Dónde puedo encontrar una prueba de esta afirmación? Para PCA, esto se desprende del teorema de Eckart-Young, pero no puedo ver cómo esto se aplica a FA.

estadísticas

Relacionado, ttnphns afirma que minimizar

| | X - X_{k} | |^{2}

$||X−X_k||^2$ es equivalente a minimizar

| | X^{T} X - X_{k}^{T} X_{k} | |^{2}

$||X^TX−X_k^TX_k||^2$ . ¿Cómo se puede mostrar esto?

estadísticas

A tu primera pregunta. Sí, es la norma de Frobenius. A diferencia de PCA, FA es más un marco que un método definido con precisión; existen diferentes "métodos de extracción de factores", lo que resulta en resultados no idénticos. Por supuesto, no puede haber ninguna prueba para todas las versiones de FA. Sin embargo, uno de los métodos más antiguos / más simples / generalizados es encontrar

W

$W$ y

Ψ

$\Psi$ directamente minimizando esta función de costo (inicializar

Ψ

$\Psi$ aleatoriamente, resolver por

W

$W$ vía PCA, actualizar

Ψ

$\Psi$ , etc. hasta la convergencia). Esto se llama método de "factor principal iterado", o algo así. Entonces nada queda por probar :)

ameba

A tu segunda pregunta. No estoy seguro de si esto es cierto en general (tal vez lo sea, tal vez no), pero nunca lo uso en mi respuesta vinculada. Mire mi "Actualización 2" cuidadosamente, esta declaración no es necesaria.

ameba

¿Bajo qué condiciones PCA y FA producen resultados similares?

Respuestas: