Algunos artículos científicos informan resultados de análisis paralelos del análisis factorial del eje principal de una manera inconsistente con mi comprensión de la metodología. ¿Qué me estoy perdiendo? ¿Me equivoco o son ellos?
Ejemplo:
- Datos: Se ha observado el desempeño de 200 humanos individuales en 10 tareas. Para cada individuo y cada tarea, uno tiene una puntuación de rendimiento. La pregunta ahora es determinar cuántos factores son la causa del desempeño en las 10 tareas.
- Método: análisis paralelo para determinar el número de factores a retener en un análisis factorial del eje principal.
- Ejemplo de resultado informado: "el análisis paralelo sugiere que solo se deben conservar los factores con un valor propio de 2.21 o más"
Eso no tiene sentido, ¿no?
Del artículo original de Horn (1965) y tutoriales como Hayton et al. (2004) Entiendo que el análisis paralelo es una adaptación del criterio de Kaiser (valor propio> 1) basado en datos aleatorios. Sin embargo, la adaptación no es reemplazar el valor de corte 1 por otro número fijo, sino un valor de corte individual para cada factor (y depende del tamaño del conjunto de datos, es decir, 200 veces 10 puntajes). Mirando los ejemplos de Horn (1965) y Hayton et al. (2004) y la salida de funciones R fa.paralelo en el paquete psicológico y paralelo en los nFactoresEn el paquete, veo que el análisis paralelo produce una curva inclinada hacia abajo en la gráfica de Scree para comparar con los valores propios de los datos reales. Más como "Retener el primer factor si su valor propio es> 2.21; adicionalmente retendrá el segundo si su valor propio es> 1.65; ... ".
¿Existe algún entorno sensato, alguna escuela de pensamiento o alguna metodología que haga que "el análisis paralelo sugiera que solo se deben conservar los factores con un valor propio de 2.21 o más" correcto?
Referencias
Hayton, JC, Allen, DG, Scarpello, V. (2004). Decisiones de retención de factores en el análisis factorial exploratorio: un tutorial sobre análisis paralelo. Métodos de investigación organizacional, 7 (2): 191-205.
Horn, JL (1965). Una justificación y una prueba para la cantidad de factores en el análisis factorial. Psychometrika, 30 (2): 179-185.
paran
para R (en CRAN) y para Stata (dentro de Stata type findit paran).Respuestas:
Hay dos formas equivalentes de expresar el criterio de análisis paralelo. Pero primero tengo que ocuparme de un malentendido frecuente en la literatura.
El malentendido
La llamada regla de Kaiser (a Kaiser en realidad no le gustó la regla si lees su artículo de 1960) valores propios mayores que uno se retienen para el análisis de componentes principales . Usando la llamada regla de Kaiser, los valores propios mayores que cero se retienen para el análisis de factores principales / análisis de factores comunes . Esta confusión ha surgido a lo largo de los años porque varios autores han sido descuidados al usar la etiqueta "análisis factorial" para describir el "análisis de componentes principales", cuando no son lo mismo.
Consulte Aclaración suave de la aplicación del análisis paralelo de Horn al análisis de componentes principales frente al análisis factorial para obtener información matemática si necesita convencer sobre este punto.
Criterios de retención de análisis paralelopags λ1, ... ,λpags norte pags λ¯r1, ... ,λ¯rpags
Para el análisis de componentes principales basado en la matriz de correlación de número de variables, tiene varias cantidades. Primero tiene los valores propios observados de una descomposición propia de la matriz de correlación de sus datos, . En segundo lugar, usted tiene los valores propios medios de eigendecompositions de las matrices de correlación de "un gran número" de azar (no correlacionados) conjuntos de datos de la misma y como el suyo propio, .
Horn también enmarca sus ejemplos en términos de "sesgo de muestreo" y estima este sesgo para el valor propio (para el análisis de componentes principales) como . Este sesgo se puede utilizar para ajustar los valores propios observados así:qth εq=λ¯rq- 1 λadjq=λq-εq
Dadas estas cantidades, puede expresar el criterio de retención para el valor propio observado de un análisis paralelo de componentes principales de dos maneras matemáticamente equivalentes:qth
¿Qué pasa con el análisis factorial principal / análisis factorial común? Aquí debemos tener en cuenta que el sesgo es el valor propio medio correspondiente: (menos cero porque la regla de Kaiser para la descomposición propia de la matriz de correlación con la diagonal reemplazada por las comunalidades es retener valores propios mayores que cero). Por lo tanto, aquí .εq=λ¯rq- 0 =λ¯rq λadjq=λq-λ¯rq
Por lo tanto, los criterios de retención para el análisis factorial principal / análisis factorial común deben expresarse como:
Observe que la segunda forma de expresar el criterio de retención es consistente tanto para el análisis de componentes principales como para el análisis de factores comunes (es decir, porque la definición de cambia según los componentes / factores, pero el La segunda forma de criterio de retención no se expresa en términos de ).λadjq λadjq
una cosa más ...
Tanto el análisis de componentes principales como el análisis de factores principales / análisis de factores comunes pueden basarse en la matriz de covarianza en lugar de la matriz de correlación. Debido a que esto cambia los supuestos / definiciones sobre la varianza total y común, solo las segundas formas del criterio de retención deben usarse al basar el análisis de uno en la matriz de covarianza.
fuente
Sí, es posible tener un valor de 2.21 si el tamaño de la muestra no es infinitamente grande (o lo suficientemente grande ...). Esta es, de hecho, la motivación detrás del desarrollo del análisis paralelo como un aumento de la regla del valor propio 1.
Cito a Valle 1999 sobre esta respuesta y he puesto en cursiva la parte que habla directamente sobre su pregunta.
Selección del número de componentes principales: la varianza del criterio de error de reconstrucción con una comparación con otros métodos † Sergio Valle, Weihua Li y S. Joe Qin * Industrial & Engineering Chemistry Research 1999 38 (11), 4389-4401
fuente
Ciertamente, su ejemplo no está claro, pero puede que tampoco sea una tontería. Brevemente, considere la posibilidad de que el ejemplo base su regla de decisión en el valor propio del primer factor simulado que sea mayor que el factor real del mismo número de factor. Aquí hay otro ejemplo enr:
Los datos son aleatorios, y solo hay tres variables, por lo que un segundo factor ciertamente no tendría sentido, y eso es lo que indica el análisis paralelo. * Los resultados también corroboran lo que @Alexis dijo sobre " El malentendido ".
Digamos que interpreto este análisis de la siguiente manera: "El análisis paralelo sugiere que solo los factores [ nocomponentes] con un valor propio de 1.2E-6 o más debe ser retenido ". Esto tiene cierto sentido porque ese es el valor del primer valor propio simulado que es mayor que el valor propio "real", y todos los valores propios a partir de entonces necesariamente disminuyen. Es una forma incómoda de informar ese resultado, pero al menos es coherente con el razonamiento de que uno debe mirar muy escépticamente cualquier factor (o componente) con valores propios que no sean mucho más grandes que los valores propios correspondientes de datos simulados, no correlacionados. Este debería ser el caso consistentemente después de la primera instancia en el diagrama de pantalla donde el valor propio simulado excede el valor propio real correspondiente. En el ejemplo anterior, el tercer factor simulado es muy ligeramente más pequeño que el tercer factor "real",
* En este caso, R dice: "El análisis paralelo sugiere que la cantidad de factores = 1 y la cantidad de componentes = 2", pero es de esperar que la mayoría de nosotros sepa que no debemos confiar en nuestro software para interpretar nuestras tramas por nosotros ... definitivamente no retendría el segundo componente solo porque es infinitamente más grande que el segundo componente simulado.
fuente