Parece que varios de los paquetes estadísticos que uso envuelven estos dos conceptos juntos. Sin embargo, me pregunto si hay diferentes supuestos o "formalidades" de datos que deben ser ciertos para usar uno sobre el otro. Un ejemplo real sería increíblemente útil.
pca
factor-analysis
Brandon Bertelsen
fuente
fuente
Respuestas:
El análisis de componentes principales implica la extracción de compuestos lineales de variables observadas.
El análisis factorial se basa en un modelo formal que predice variables observadas a partir de factores teóricos latentes.
En psicología, estas dos técnicas a menudo se aplican en la construcción de pruebas de múltiples escalas para determinar qué elementos se cargan en qué escalas. Por lo general, arrojan conclusiones sustantivas similares (para una discusión, ver Comrey (1988) Factor-Analytic Methods of Scale Development in Personality and Clinical Psychology). Esto ayuda a explicar por qué algunos paquetes de estadísticas parecen agruparlos. También he visto situaciones en las que el "análisis de componentes principales" está incorrectamente etiquetado como "análisis factorial".
En términos de una regla general simple , te sugiero que:
Ejecute el análisis de factores si asume o desea probar un modelo teórico de factores latentes que causan variables observadas.
Ejecute el análisis de componentes principales Si desea simplemente reducir sus variables observadas correlacionadas a un conjunto más pequeño de variables compuestas independientes importantes.
fuente
De mi respuesta aquí:
¿La PCA seguida de una rotación (como varimax) sigue siendo PCA?
El análisis de componentes principales (PCA) y el análisis de factores comunes (CFA) son métodos distintos. A menudo, producen resultados similares y PCA se utiliza como método de extracción predeterminado en las rutinas de análisis factorial de SPSS. Esto indudablemente genera mucha confusión sobre la distinción entre los dos.
La conclusión es que estos son dos modelos diferentes, conceptualmente. En PCA, los componentes son combinaciones lineales ortogonales reales que maximizan la varianza total. En FA, los factores son combinaciones lineales que maximizan la porción compartida de la varianza - "construcciones latentes" subyacentes. Es por eso que FA a menudo se llama "análisis de factores comunes". FA utiliza una variedad de rutinas de optimización y el resultado, a diferencia de PCA, depende de la rutina de optimización utilizada y los puntos de partida para esas rutinas. Simplemente no hay una única solución única.
En R, la función factanal () proporciona CFA con una extracción de máxima probabilidad. Por lo tanto, no debe esperar que reproduzca un resultado SPSS que se basa en una extracción de PCA. Simplemente no es el mismo modelo o lógica. No estoy seguro de si obtendría el mismo resultado si usara la extracción de máxima verosimilitud de SPSS, ya que es posible que no usen el mismo algoritmo.
Sin embargo, para bien o para mal en R, puede reproducir el "análisis factorial" mezclado que SPSS proporciona como predeterminado. Aquí está el proceso en R. Con este código, puedo reproducir el resultado del "Análisis factorial" del componente principal de SPSS utilizando este conjunto de datos. (Con la excepción del signo, que es indeterminado). Ese resultado también podría rotarse utilizando cualquiera de los métodos de rotación disponibles de R.
fuente
principal(attitude, 2, rotate="none")
elpsych
paquete y que la regla de Kayser (ev> 1) no es la forma más recomendada para comprobar la dimensionalidad (sobrestima la cantidad de factores).factanal()
proporciona EFA no CFA. Además, según mi experiencia, la extracción de máxima verosimilitud de SPSS debería dar el mismo resultadofactanal()
dado que no hay rotación oblicua.Tienes razón sobre tu primer punto, aunque en FA generalmente trabajas con ambos (singularidad y comunidad). La elección entre PCA y FA es un debate de larga data entre los psicometristas. Sin embargo, no sigo tus puntos. La rotación de los ejes principales se puede aplicar sea cual sea el método utilizado para construir factores latentes. De hecho, la mayoría de las veces esta es la rotación VARIMAX (rotación ortogonal, considerando factores no correlacionados) que se usa, por razones prácticas (interpretación más fácil, reglas de puntuación más fáciles o interpretación de puntajes de factores, etc.), aunque rotación oblicua (por ejemplo, PROMAX ) probablemente refleje mejor la realidad (las construcciones latentes a menudo se correlacionan entre sí), al menos en la tradición de FA donde asumes que una construcción latente está realmente en el centro de las correlaciones observadas entre tus variables. El punto es que PCA seguido de la rotación VARIMAX distorsiona de alguna manera la interpretación de las combinaciones lineales de las variables originales en la tradición del "análisis de datos" (ver el trabajo de Michel Tenenhaus). Desde una perspectiva psicométrica, los modelos FA son preferibles ya que explícitamente explican los errores de medición, mientras que PCA no se preocupa por eso. En pocas palabras, utilizando PCA está expresando cada componente (factor) como una combinación lineal de las variables, mientras que en FA estas son las variables que se expresan como combinaciones lineales de los factores (incluidos los componentes de comunidad y unicidad, como usted dijo). El punto es que PCA seguido de la rotación VARIMAX distorsiona de alguna manera la interpretación de las combinaciones lineales de las variables originales en la tradición del "análisis de datos" (ver el trabajo de Michel Tenenhaus). Desde una perspectiva psicométrica, los modelos FA son preferibles ya que explícitamente explican los errores de medición, mientras que PCA no se preocupa por eso. En pocas palabras, utilizando PCA está expresando cada componente (factor) como una combinación lineal de las variables, mientras que en FA estas son las variables que se expresan como combinaciones lineales de los factores (incluidos los componentes de comunidad y unicidad, como usted dijo). El punto es que PCA seguido de la rotación VARIMAX distorsiona de alguna manera la interpretación de las combinaciones lineales de las variables originales en la tradición del "análisis de datos" (ver el trabajo de Michel Tenenhaus). Desde una perspectiva psicométrica, los modelos FA son preferibles ya que explícitamente explican los errores de medición, mientras que PCA no se preocupa por eso. En pocas palabras, utilizando PCA está expresando cada componente (factor) como una combinación lineal de las variables, mientras que en FA estas son las variables que se expresan como combinaciones lineales de los factores (incluidos los componentes de comunidad y unicidad, como usted dijo). Los modelos FA son preferibles ya que explícitamente explican los errores de medición, mientras que a PCA no le importa eso. En pocas palabras, utilizando PCA está expresando cada componente (factor) como una combinación lineal de las variables, mientras que en FA estas son las variables que se expresan como combinaciones lineales de los factores (incluidos los componentes de comunidad y unicidad, como usted dijo). Se preferirán los modelos FA ya que explícitamente explican los errores de medición, mientras que PCA no se preocupa por eso. En pocas palabras, utilizando PCA está expresando cada componente (factor) como una combinación lineal de las variables, mientras que en FA estas son las variables que se expresan como combinaciones lineales de los factores (incluidos los componentes de comunidad y unicidad, como usted dijo).
Le recomiendo que lea primero las siguientes discusiones sobre este tema:
fuente
PCA followed by VARIMAX rotation somewhat distorts the interpretation of the linear combinations of the original variables in the "data analysis" tradition
. Chl, ¿podrías explicarlo? Eso es interesante.Existen numerosas definiciones sugeridas en la web. Aquí hay uno de un glosario en línea sobre aprendizaje estadístico :
fuente
La respuesta principal en este hilo sugiere que PCA es más una técnica de reducción de dimensionalidad, mientras que FA es más una técnica de variable latente. Esto es sensu stricto correcto. Pero muchas respuestas aquí y muchos tratamientos en otros lugares presentan PCA y FA como dos métodos completamente diferentes, con objetivos, métodos y resultados diferentes, si no opuestos. Estoy en desacuerdo; Creo que cuando se considera que la PCA es una técnica de variable latente, está bastante cerca de la FA, y es mejor que se vean como métodos muy similares.
Proporcioné mi propia cuenta de las similitudes y diferencias entre PCA y FA en el siguiente hilo: ¿Hay alguna buena razón para usar PCA en lugar de EFA? Además, ¿puede la PCA ser un sustituto del análisis factorial? Allí sostengo que, por razones matemáticas simples, se puede esperar que el resultado de PCA y FA sea bastante similar, dado que el número de variables no es muy pequeño (quizás más de una docena). Vea mi respuesta [¡larga!] En el hilo vinculado para obtener detalles matemáticos y simulaciones de Monte Carlo. Para una versión mucho más concisa de mi argumento, vea aquí: ¿ Bajo qué condiciones PCA y FA producen resultados similares?
¡Tenga en cuenta que casi no hay diferencia entre PCA y FA! Hay pequeñas desviaciones aquí y allá, pero la imagen general es casi idéntica, y todas las cargas son muy similares y apuntan en las mismas direcciones. Esto es exactamente lo que se esperaba de la teoría y no es sorprendente; aún así, es instructivo observar.
PD. Para un biplot PCA mucho más bonito del mismo conjunto de datos, vea esta respuesta de @vqv .
PPS Mientras que los cálculos de PCA son estándar, los cálculos de FA pueden requerir un comentario. Las cargas de factores se calcularon mediante un algoritmo de "factores principales iterados" hasta la convergencia (9 iteraciones), con comunalidades inicializadas con correlaciones parciales. Una vez que las cargas convergieron, las puntuaciones se calcularon utilizando el método de Bartlett. Esto produce puntajes estandarizados; Los amplié por las respectivas variaciones de factores (dadas por las longitudes de carga).
fuente
Una explicación básica, pero un poco minuciosa, del análisis PCA vs Factor con la ayuda de diagramas de dispersión, en pasos lógicos. (Agradezco a @amoeba que, en su comentario a la pregunta, me ha animado a publicar una respuesta en lugar de hacer enlaces a otros lugares. Así que aquí hay una respuesta tardía y de ocio).
PCA como resumen de variables (extracción de características)
Espero que ya comprenda PCA. Para revivir ahora.
Esos coeficientes son cosenos de rotación (= cosenos de dirección, direcciones principales) y comprenden lo que se denominan vectores propios, mientras que los valores propios de la matriz de covarianza son las varianzas de componentes principales. En PCA, generalmente descartamos los últimos componentes débiles: resumimos los datos por unos pocos componentes extraídos primero, con poca pérdida de información.
Con nuestros datos trazados, los valores del componente P1 (puntajes)
P1 = .73543*V1 + .67761*V2
y el componente P2 descartamos. La varianza de P1 es1.75756
el primer valor propio de la matriz de covarianza, por lo que P1 explica86.5%
la varianza total que es igual(1.07652+.95534) = (1.75756+.27430)
.PCA como predicción variable (característica "latente")
Ahora, lo que es característico de PCA es que si calculamos E1 y E2 para cada punto en los datos y trazamos estas coordenadas, es decir, hacemos el diagrama de dispersión de los errores solos, los "datos de error" de la nube coincidirán con el componente descartado P2. Y lo hace: la nube se traza en la misma imagen que la nube beige, y se ve que en realidad forma el eje P2 (de la figura 1 ) en mosaico con las puntuaciones de los componentes P2.
No es de extrañar, se puede decir. Es muy obvio: en PCA , los componentes junior descartados son los que se descomponen con precisión en los errores de predicción E, en el modelo que explica (restaura) las variables originales V por las características latentes P1. Los errores E juntos constituyen los componentes excluidos. Aquí es donde el análisis factorial comienza a diferir de PCA.
La idea de FA común (característica latente)
Formalmente, el modelo que predice variables manifiestas por las características latentes extraídas es el mismo en FA que en PCA; [ Eq.3 ]:
donde F es el factor común latente extraído de los datos y reemplazando lo que era P1 en la ecuación 2 . La diferencia en el modelo es que en FA, a diferencia de PCA, se requiere que las variables de error (E1 y E2) no estén correlacionadas entre sí .
OK, volviendo al hilo. E1 y E2 no están correlacionados en el análisis factorial; por lo tanto, deberían formar una nube de errores, ya sea redonda o elíptica, pero no orientada en diagonal. Mientras estaban en PCA, su nube formó una línea recta que coincidía con P2 en diagonal. Ambas ideas se demuestran en la foto:
Tenga en cuenta que los errores son redondos (no alargados en diagonal) en la nube en FA. El factor (latente) en FA está orientado de manera algo diferente, es decir, no es correcto el primer componente principal que es el "latente" en PCA. En la imagen, la línea de factor es extrañamente cónica: al final quedará claro por qué.
¿Cuál es el significado de esta diferencia entre PCA y FA? Variables correlacionadas, lo que se ve en la forma diagonalmente elíptica de la nube de datos. P1 rozó la varianza máxima, por lo que la elipse se codirige a P1. En consecuencia, P1 explica por sí mismo la correlación; pero no explicaba la cantidad existente de correlación adecuadamente; buscó explicar la variación en los puntos de datos, no la correlación. En realidad, exageró la correlación, cuyo resultado fue la aparición de la nube de errores diagonal correlacionada que compensa la sobrecuenta. P1 por sí solo no puede explicar la fuerza de la correlación / covariación de manera integral. Factor F puedehazlo solo; y la condición cuando puede hacerlo es exactamente donde los errores pueden ser forzados a no estar correlacionados. Dado que la nube de error es redonda, no ha quedado ninguna correlación, positiva o negativa, después de que se extrajo el factor, por lo tanto, es el factor que lo desvió todo.
Como una reducción de dimensionalidad, PCA explica la varianza pero explica las correlaciones de manera imprecisa. FA explica las correlaciones pero no puede explicar (por los factores comunes) tanta variación de datos como PCA. Los factores en FA representan esa porción de variabilidad que es la porción correlacional neta, llamada comunalidad ; y, por lo tanto, los factores pueden interpretarse como fuerzas / características / rasgos reales pero no observables que se esconden "dentro" o "detrás" de las variables de entrada para que se correlacionen. Porque explican bien la correlación matemáticamente. Los componentes principales (algunos primeros) no lo explican matemáticamente tan bien y, por lo tanto, pueden llamarse "rasgo latente" (o tal) solo en algún momento y tentativamente .
La multiplicación de las cargas es lo que explica (restaura) la correlación, o la correlación en forma de covarianza, si el análisis se basó en la matriz de covarianza (como en nuestro ejemplo) en lugar de la matriz de correlación. El análisis factorial que hice con los datos arrojó
a_1=.87352, a_2=.84528
, por lo que el productoa_1*a_2 = .73837
es casi igual a la covarianza.73915
. Por otro lado, las cargas de PCA fuerona1_1=.97497, a1_2=.89832
, por lo que sea1_1*a1_2 = .87584
sobreestima.73915
considerablemente.Habiendo explicado la principal distinción teórica entre PCA y FA, volvamos a nuestros datos para ejemplificar la idea.
FA: solución aproximada (puntajes de factores)
A continuación se muestra el diagrama de dispersión que muestra los resultados del análisis que llamaremos provisionalmente "análisis factor subóptimo", Fig.3 .
Ver salidas de la Fig.2 de PCA. La nube beige de los errores no es redonda, es diagonalmente elíptica, pero evidentemente es mucho más gruesa que la delgada línea diagonal que se ha producido en la PCA. Tenga en cuenta también que los conectores de error (mostrados para algunos puntos) ya no son paralelos (en PCA, por definición eran paralelos a P2). Además, si observa, por ejemplo, los puntos "F" y "E" que se encuentran simétricamente sobre el eje F del factor , encontrará, inesperadamente, que sus puntajes de factor correspondientes son valores bastante diferentes. En otras palabras, los puntajes de los factores no son solo puntajes de componentes principales transformados linealmente: el factor F se encuentra a su manera diferente de P1. Y sus ejes no coinciden completamente si se muestran juntos en la misma gráfica Fig.4 :
Además de que tienen una orientación un poco diferente, F (en mosaico con puntajes) es más corto, es decir, representa una variación menor que las cuentas P1. Como se señaló anteriormente, el factor solo tiene en cuenta la variabilidad que es responsable de la correlación de V1 V2, es decir, la porción de la varianza total que es suficiente para llevar las variables de la covarianza primitiva
0
a la covarianza objetiva.73915
.FA: solución óptima (factor verdadero)
Una solución de factor óptima es cuando los errores son redondos o elípticos no diagonales: E1 y E2 no están correlacionados . El análisis factorial en realidad devuelve una solución tan óptima. No lo mostré en un diagrama de dispersión simple como los de arriba. ¿Por qué lo hice? Porque habría sido lo más interesante, después de todo.
La razón es que sería imposible mostrar en un diagrama de dispersión lo suficientemente adecuado, incluso adoptando un diagrama 3D. Es un punto bastante interesante en teoría. Para que E1 y E2 no estén correlacionados por completo, parece que estas tres variables, F, E1, E2 no tienen que estar en el espacio (plano) definido por V1, V2; y los tres no deben estar correlacionados entre sí . Creo que es posible dibujar un diagrama de dispersión en 5D (y tal vez con algún truco, en 4D), pero vivimos en el mundo 3D, por desgracia. El factor F no debe estar correlacionado con E1 y E2 (mientras que los dos tampoco están correlacionados) porque se supone que F es la única fuente de correlación (limpia) y completa en los datos observados. El análisis factorial divide la varianza total de
p
variables de entrada en dos partes no correlacionadas (no superpuestas): la parte de comunalidad (m
-dimensional, dondem
los factores comunes gobiernan) y la parte de unicidad (p
-dimensional, donde los errores son, también llamados factores únicos, mutuamente no correlacionados).Así que perdón por no mostrar el verdadero factor de nuestros datos en un diagrama de dispersión aquí. Podría visualizarse de manera bastante adecuada a través de vectores en el "espacio de sujeto" como se hace aquí sin mostrar puntos de datos.
Arriba, en la sección "La idea de FA común (característica latente)", visualicé el factor (eje F) como una cuña para advertir que el eje del factor verdadero no se encuentra en el plano V1 V2. Eso significa que, en contraste con el componente principal P1, el factor F como eje no es una rotación del eje V1 o V2 en su espacio, y F como variable no es una combinación lineal de las variables V1 y V2. Por lo tanto, F se modela (extrae de las variables V1 v2) como si fuera una variable externa e independiente, no una derivación de ellas. Las ecuaciones como la ecuación 1 desde donde comienza la PCA no son aplicables para calcular el factor verdadero (óptimo) en el análisis factorial, mientras que las ecuaciones formalmente isomórficas Eq.2 y Eq.3son válidos para ambos análisis. Es decir, en PCA las variables generan componentes y los componentes vuelven a predecir variables; en factor (es) FA (s) generan / predicen variables, y no regresan - el modelo de factor común conceptualmente asume que sí , aunque técnicamente los factores se extraen de las variables observadas.
No solo el factor verdadero no es una función de las variables manifiestas, los valores del factor verdadero no están definidos de manera exclusiva . En otras palabras, son simplemente desconocidos. Todo esto se debe al hecho de que estamos en el espacio analítico 5D excesivo y no en el espacio 2D de datos de nuestro hogar. Solo tenemos buenas aproximaciones ( existen varios métodos ) a valores de factores verdaderos, llamados puntajes de factores , para nosotros. Los puntajes de los factores se encuentran en el plano V1 V2, al igual que los puntajes de los componentes principales, también se calculan como las funciones lineales de V1, V2, y si fueranque tracé en la sección "FA: solución aproximada (puntajes de factores)". Los puntajes de los componentes principales son valores de componentes verdaderos; los puntajes de los factores son solo una aproximación razonable a los valores de los factores verdaderos indeterminados.
FA: resumen del procedimiento
Por lo tanto, la "solución factorial" mostrada por mí en la sección "FA: solución aproximada (puntajes factoriales)" se basó en realidad en cargas óptimas, es decir, en factores verdaderos. Pero los puntajes no fueron óptimos, por destino. Los puntajes se calculan como una función lineal de las variables observadas, como lo son los puntajes de los componentes, por lo que ambos podrían compararse en un diagrama de dispersión y lo hice en una búsqueda didáctica para mostrar como un paso gradual de la idea PCA hacia la idea FA.
Hay que tener cuidado al graficar en las mismas cargas de factores biplot con puntajes de factores en el "espacio de factores", tener en cuenta que las cargas pertenecen a factores verdaderos mientras que las puntuaciones pertenecen a factores sustitutos (vea mis comentarios a esta respuesta en este hilo).
La rotación de factores (cargas) ayuda a interpretar las características latentes. La rotación de las cargas se puede hacer también en PCA si usa PCA como si fuera un análisis factorial (es decir, vea PCA como predicción variable). PCA tiende a converger en los resultados con FA a medida que crece el número de variables (vea el hilo extremadamente rico en similitudes y diferencias prácticas y conceptuales entre los dos métodos). Vea mi lista de diferencias entre PCA y FA al final de esta respuesta . Aquí se encuentran los cálculos paso a paso de PCA vs FA en el conjunto de datos de iris . Hay un número considerable de buenos enlaces a las respuestas de otros participantes sobre el tema fuera de este hilo; Lo siento, solo usé algunos de ellos en la respuesta actual.
Vea también una lista con viñetas de las diferencias entre PCA y FA aquí .
fuente
Las diferencias entre el análisis factorial y el análisis de componentes principales son:
• En el análisis factorial hay un modelo estructurado y algunos supuestos. A este respecto, es una técnica estadística que no se aplica al análisis de componentes principales, que es una transformación puramente matemática.
• El objetivo del análisis de componentes principales es explicar la varianza, mientras que el análisis factorial explica la covarianza entre las variables.
Una de las principales razones de la confusión entre los dos tiene que ver con el hecho de que uno de los métodos de extracción de factores en el Análisis Factorial se llama "método de componentes principales". Sin embargo, una cosa es usar PCA y otra cosa usar el método de componentes principales en FA. Los nombres pueden ser similares, pero hay diferencias significativas. El primero es un método analítico independiente, mientras que el segundo es simplemente una herramienta para la extracción de factores.
fuente
Para mí (y espero que esto sea útil) el análisis factorial es mucho más útil que PCA.
Recientemente tuve el placer de analizar una escala a través del análisis factorial. Esta escala (aunque se usa ampliamente en la industria) se desarrolló utilizando PCA y, que yo sepa, nunca se había analizado factorialmente.
Cuando realicé el análisis factorial (eje principal) descubrí que las comunalidades para tres de los ítems eran inferiores al 30%, lo que significa que no se analizaba más del 70% de la varianza de los ítems. PCA simplemente transforma los datos en una nueva combinación y no se preocupa por las comunidades. Mi conclusión fue que la escala no era muy buena desde el punto de vista psicométrico, y lo he confirmado con una muestra diferente.
Esencialmente, si desea predecir el uso de los factores, use PCA, mientras que si quiere comprender los factores latentes, use el Análisis Factorial.
fuente
Ampliando la respuesta de @ StatisticsDocConsulting: la diferencia en las cargas entre EFA y PCA no es trivial con un pequeño número de variables. Aquí hay una función de simulación para demostrar esto en R:
Iterations
Sample.Size
Iterations
principal()
factanal()
Usando este código, he simulado muestras de 3–100 variables con 500 iteraciones cada una para producir datos:
... para una gráfica de la sensibilidad de las cargas medias (a través de variables e iteraciones) al número de variables:
fuente
Uno puede pensar que un PCA es como un FA en el que se supone que las comunidades son iguales a 1 para todas las variables. En la práctica, esto significa que los elementos que tendrían cargas de factor relativamente bajas en FA debido a la baja comunalidad tendrán cargas más altas en PCA. Esta no es una característica deseable si el propósito principal del análisis es cortar la longitud del artículo y limpiar una batería de artículos de aquellos con cargas bajas o equívocas, o identificar conceptos que no están bien representados en el grupo de artículos.
fuente
Una cita de un buen libro de texto (Brown, 2006, pp. 22, énfasis agregado).
PCA = análisis de componentes principales
EFA = análisis factorial exploratorio
CFA = análisis factorial confirmatorio
Brown, TA (2006). El análisis factorial confirmatorio para la investigación aplicada. Nueva York: Guilford Press.
fuente
En un artículo de Tipping y Bischop se discute la estrecha relación entre PCA Probabalística (PPCA) y análisis factorial. PPCA está más cerca de FA que el PCA clásico. El modelo común es
Michael E. Tipping, Christopher M. Bishop (1999). Análisis probabilístico de componentes principales , Journal of the Royal Statistical Society, Volumen 61, Número 3, páginas 611–622
fuente
Ninguna de estas respuestas es perfecta. Ya sea FA o PCA tiene algunas variantes. Debemos señalar claramente qué variantes se comparan. Compararía el análisis del factor de máxima verosimilitud y el PCA de Hotelling. Los primeros suponen que la variable latente sigue una distribución normal, pero PCA no tiene tal suposición. Esto ha llevado a diferencias, como la solución, el anidamiento de los componentes, la solución única, los algoritmos de optimización.
fuente
Hay muchas respuestas geniales para esta publicación, pero recientemente encontré otra diferencia.
Clustering es una aplicación donde PCA y FA producen resultados diferentes. Cuando hay muchas características en los datos, se puede intentar encontrar las direcciones principales de la PC y proyectar los datos en estas PC, luego proceder a la agrupación. A menudo, esto perturba los grupos inherentes en los datos: este es un resultado bien probado. Los investigadores sugieren continuar con los métodos de agrupamiento subespacial, que buscan factores latentes de baja dimensión en el modelo.
Solo para ilustrar esta diferencia, considere el
Crabs
conjunto de datos en R. El conjunto de datos de Cangrejos tiene 200 filas y 8 columnas, que describen 5 mediciones morfológicas en 50 cangrejos, cada uno de dos formas de color y ambos sexos, de la especie. Esencialmente, hay 4 (2x2) clases diferentes de cangrejosAgrupación con PC1 y PC2:
Agrupación con PC2 y PC3:
Como podemos ver en las gráficas anteriores, PC2 y PC3 tienen más información discriminatoria que PC1.
Si uno intenta agrupar usando los factores latentes usando una Mezcla de analizadores de factores, vemos resultados mucho mejores en comparación con el uso de las dos primeras PC.
fuente