A diferencia del análisis de componentes principales, las soluciones para los modelos de análisis factorial no están necesariamente anidadas. Es decir, las cargas (por ejemplo) para el primer factor no serán necesariamente idénticas cuando solo se extrae el primer factor frente a cuando lo son los dos primeros factores.
Con eso en mente, considere un caso en el que tenga un conjunto de variables manifiestas que estén altamente correlacionadas y (por el conocimiento teórico de su contenido) deba estar impulsado por un solo factor. Imagine que los análisis factoriales exploratorios (según la métrica que prefiera: análisis paralelo, diagrama de pantalla, valores propios> 1, etc.) sugieren fuertemente que hay factores: un factor primario grande y un factor secundario pequeño. Está interesado en utilizar las variables de manifiesto y la solución de factores para estimar (es decir, obtener puntajes de factores) los valores de los participantes para el primer factor. En este escenario, sería mejor:
- Ajuste un modelo de factor para extraer solo factor y obtenga puntajes de factor (etc.), o
- ajustar un modelo de factores para extraer ambos factores, obtener puntajes de factores para los factores, pero descartar / ignorar los puntajes del segundo factor?
Para cualquiera que sea la mejor práctica, ¿por qué? ¿Hay alguna investigación sobre este tema?
fuente
Is is always better to extract more factors when they exist?
no está muy claro. Siempre es mejor extraer tantos como existan. La falta de ajuste o el exceso de ajuste distorsionan la estructura latente "verdadera" debido a la naturaleza multivariada y no anidada del análisis mencionado por usted. El problema es que no sabemos exactamente cuántos factores hay en nuestros datos. Y si estos datos tienen tantos como la población tiene.Respuestas:
El tema al que te estás refiriendo es el tema de la 'unidimensionalidad aproximada' al construir instrumentos de pruebas psicológicas, que se discutió bastante en la lituratura en los años 80. La inspiración existió en el pasado porque los profesionales querían usar los modelos tradicionales de teoría de respuesta a ítems (IRT) para sus ítems, y en ese momento estos modelos de IRT se limitaban exclusivamente a medir rasgos unidimensionales. Por lo tanto, se esperaba que la prueba de multidimensionalidad fuera una molestia que (con suerte) podría evitarse o ignorarse. Esto es también lo que llevó a la creación de las técnicas de análisis paralelo en el análisis factorial (Drasgow y Parsons, 1983) y los métodos DETECTAR.
Las consecuencias de ignorar rasgos / factores adicionales, además de obviamente ajustar el modelo incorrecto a los datos (es decir, ignorar la información sobre el posible desajuste del modelo; aunque, por supuesto, puede ser trivial), es que las estimaciones de rasgos sobre el factor dominante se sesgarán Por lo tanto, menos eficiente. Estas conclusiones, por supuesto, dependen de cómo las propiedades de los rasgos adicionales (por ejemplo, están correlacionadas con la dimensión primaria, tienen fuertes cargas, cuántas cargas cruzadas hay, etc.), pero el tema general es que las estimaciones secundarias para obtener puntajes de rasgos primarios será menos efectivo. Vea el informe técnico aquí para una comparación entre un modelo unidimensional mal ajustado y un modelo bi-factor; el informe técnico parece ser exactamente lo que busca.
Desde una perspectiva práctica, el uso de criterios de información puede ser útil al seleccionar el modelo más óptimo, así como las estadísticas de ajuste del modelo en general (RMSEA, CFI, etc.) porque las consecuencias de ignorar la información multidimensional afectarán negativamente el ajuste general de los datos . Pero, por supuesto, el ajuste general del modelo es solo una indicación del uso de un modelo inapropiado para los datos disponibles; es muy posible que se utilicen formas funcionales inadecuadas, como la no linealidad o la falta de monotonicidad, por lo que los elementos / variables respectivos siempre deben inspeccionarse también.
Ver también :
Drasgow, F. y Parsons, CK (1983). Aplicación de modelos de teoría de respuesta de ítems unidimensionales a datos multidimensionales. Medición psicológica aplicada, 7 (2), 189-199.
Drasgow, F. y Lissak, RI (1983). Análisis paralelo modificado: un procedimiento para examinar la dimensionalidad latente de respuestas de ítems dicotómicamente calificadas. Revista de Psicología Aplicada, 68, 363-373.
Levent Kirisci, Tse-chi Hsu y Lifa Yu (2001). Robustez de los programas de estimación de parámetros de ítems a supuestos de unidimensionalidad y normalidad. Medición psicológica aplicada, 25 (2), 146-162.
fuente
Si realmente no desea usar el segundo factor, simplemente debe usar un modelo de un factor. Pero me sorprende su observación de que las cargas para el primer factor cambiarán si usa un segundo factor.
Tratemos con esa declaración primero. Si usa componentes principales para extraer los factores y no usa la rotación de factores, entonces las cargas no cambiarán, tal vez sujeto a escala (o volteo completo: si es un factor, entonces es una forma legítima de expresarlo como bien). Si usa la extracción de máxima probabilidad y / o rotaciones de factores, entonces las cargas pueden depender de la cantidad de factores que extrajo.- xx −x
A continuación, para la explicación de los efectos de las rotaciones. No soy bueno dibujando, así que intentaré convencerte usando palabras. Asumiré que sus datos son (aproximadamente) normales, de modo que los puntajes de los factores también son aproximadamente normales. Si extrae un factor, obtiene una distribución normal unidimensional, si extrae dos factores, obtiene una distribución normal bivariada.
La densidad de una distribución bivariada parece más o menos como un sombrero, pero la forma exacta depende de la escala y del coeficiente de correlación. Así que supongamos que los dos componentes tienen una unidad de varianza. En el caso no correlacionado, obtienes un bonito sombrero, con curvas de nivel que parecen círculos. Una foto está aquí . La correlación "aplasta" el sombrero, de modo que se parece más a un sombrero de Napoleón .
Supongamos que su conjunto de datos original tenía tres dimensiones y desea extraer dos factores de eso. Sigamos también con la normalidad. En este caso, la densidad es un objeto de cuatro dimensiones, pero las curvas de nivel son tridimensionales y al menos se pueden visualizar. En el caso no correlacionado, las curvas de nivel son esféricas (como un balón de fútbol). En presencia de correlación, las curvas de nivel se distorsionarán nuevamente, en una pelota de fútbol, probablemente una desinflada, de modo que el grosor en las costuras sea menor que el grosor en las otras direcciones.
Si extrae dos factores usando PCA, aplana completamente el balón en una elipse (y proyecta cada punto de datos en el plano de la elipse). El primer factor no rotado corresponde al eje largo de la elipse, el segundo factor es perpendicular a él (es decir, el eje corto). Luego, la rotación elige un sistema de coordenadas dentro de esta elipse para satisfacer algunos otros criterios útiles.
Si extrae un solo factor, la rotación es imposible, pero tiene la garantía de que el factor PCA extraído corresponde al eje largo de la elipse.
fuente
fa()
por ejemplo, no los ha usado en años. Otros métodos producirán soluciones no anidadas, lo que es fácil de verificar con software y un conjunto de datos FA. En aras de la comparabilidad, puede considerar ambas soluciones sin rotar. FWIW, estoy familiarizado con la idea de distribuciones esféricas y elípticas de MVN.¿Por qué no usaría algo como lavaan o MPlus para ejecutar dos modelos (modelo unidimensional y un modelo de dos dimensiones alineado con los resultados de su EPT) y comparar los índices de ajuste relativo y absoluto de los diferentes modelos (es decir, criterios de información: AIC y BIC, RMSEA, SRMR, CFI / TLI)? Tenga en cuenta que si sigue este camino, no querrá utilizar PCA para la EPT, sino más bien los factores principales. Alguien realmente preocupado por la medición integraría el CFA en un modelo de ecuación estructural completo.
Editar: El enfoque que te pido que consideres es más sobre descubrir cuántas variables latentes realmente explican el conjunto de elementos. Si desea obtener la mejor estimación del factor mayor, votaría por utilizar los puntajes de factor del modelo CFA con el mejor ajuste, lo que sea.
fuente