¿Cómo interpretar correctamente un análisis paralelo en el análisis factorial exploratorio?

8

Algunos artículos científicos informan resultados de análisis paralelos del análisis factorial del eje principal de una manera inconsistente con mi comprensión de la metodología. ¿Qué me estoy perdiendo? ¿Me equivoco o son ellos?

Ejemplo:

  • Datos: Se ha observado el desempeño de 200 humanos individuales en 10 tareas. Para cada individuo y cada tarea, uno tiene una puntuación de rendimiento. La pregunta ahora es determinar cuántos factores son la causa del desempeño en las 10 tareas.
  • Método: análisis paralelo para determinar el número de factores a retener en un análisis factorial del eje principal.
  • Ejemplo de resultado informado: "el análisis paralelo sugiere que solo se deben conservar los factores con un valor propio de 2.21 o más"

Eso no tiene sentido, ¿no?

Del artículo original de Horn (1965) y tutoriales como Hayton et al. (2004) Entiendo que el análisis paralelo es una adaptación del criterio de Kaiser (valor propio> 1) basado en datos aleatorios. Sin embargo, la adaptación no es reemplazar el valor de corte 1 por otro número fijo, sino un valor de corte individual para cada factor (y depende del tamaño del conjunto de datos, es decir, 200 veces 10 puntajes). Mirando los ejemplos de Horn (1965) y Hayton et al. (2004) y la salida de funciones R fa.paralelo en el paquete psicológico y paralelo en los nFactoresEn el paquete, veo que el análisis paralelo produce una curva inclinada hacia abajo en la gráfica de Scree para comparar con los valores propios de los datos reales. Más como "Retener el primer factor si su valor propio es> 2.21; adicionalmente retendrá el segundo si su valor propio es> 1.65; ... ".

¿Existe algún entorno sensato, alguna escuela de pensamiento o alguna metodología que haga que "el análisis paralelo sugiera que solo se deben conservar los factores con un valor propio de 2.21 o más" correcto?

Referencias

Hayton, JC, Allen, DG, Scarpello, V. (2004). Decisiones de retención de factores en el análisis factorial exploratorio: un tutorial sobre análisis paralelo. Métodos de investigación organizacional, 7 (2): 191-205.

Horn, JL (1965). Una justificación y una prueba para la cantidad de factores en el análisis factorial. Psychometrika, 30 (2): 179-185.

jhg
fuente
1
Por cierto, el requisito de Hayton et al. De que la forma distributiva de los datos no correlacionados se utilizara para generar valores propios medios para estimar el "sesgo de muestreo" fue examinada críticamente y rechazada en Dinno, A. (2009). Explorando la sensibilidad del análisis paralelo de Horn a la forma distributiva de datos simulados. Investigación conductual multivariante , 44 (3): 362-388.
Alexis
1
Además, por cierto, vea mi paquete de análisis paralelo paranpara R (en CRAN) y para Stata (dentro de Stata type findit paran).
Alexis

Respuestas:

9

Hay dos formas equivalentes de expresar el criterio de análisis paralelo. Pero primero tengo que ocuparme de un malentendido frecuente en la literatura.

El malentendido
La llamada regla de Kaiser (a Kaiser en realidad no le gustó la regla si lees su artículo de 1960) valores propios mayores que uno se retienen para el análisis de componentes principales . Usando la llamada regla de Kaiser, los valores propios mayores que cero se retienen para el análisis de factores principales / análisis de factores comunes . Esta confusión ha surgido a lo largo de los años porque varios autores han sido descuidados al usar la etiqueta "análisis factorial" para describir el "análisis de componentes principales", cuando no son lo mismo.

Consulte Aclaración suave de la aplicación del análisis paralelo de Horn al análisis de componentes principales frente al análisis factorial para obtener información matemática si necesita convencer sobre este punto.

Criterios de retención de análisis paralelo
Para el análisis de componentes principales basado en la matriz de correlación de número de variables, tiene varias cantidades. Primero tiene los valores propios observados de una descomposición propia de la matriz de correlación de sus datos, . En segundo lugar, usted tiene los valores propios medios de eigendecompositions de las matrices de correlación de "un gran número" de azar (no correlacionados) conjuntos de datos de la misma y como el suyo propio, .pλ1,,λpnpλ¯1r,,λ¯pr

Horn también enmarca sus ejemplos en términos de "sesgo de muestreo" y estima este sesgo para el valor propio (para el análisis de componentes principales) como . Este sesgo se puede utilizar para ajustar los valores propios observados así:qthεq=λ¯qr1λqadj=λqεq

Dadas estas cantidades, puede expresar el criterio de retención para el valor propio observado de un análisis paralelo de componentes principales de dos maneras matemáticamente equivalentes:qth

λqadj{>1Retain.1Not retain.

λq{>λ¯qrRetain.λ¯qrNot retain.

¿Qué pasa con el análisis factorial principal / análisis factorial común? Aquí debemos tener en cuenta que el sesgo es el valor propio medio correspondiente: (menos cero porque la regla de Kaiser para la descomposición propia de la matriz de correlación con la diagonal reemplazada por las comunalidades es retener valores propios mayores que cero). Por lo tanto, aquí .εq=λ¯qr0=λ¯qrλqadj=λqλ¯qr

Por lo tanto, los criterios de retención para el análisis factorial principal / análisis factorial común deben expresarse como:

λqadj{>0Retain.0Not retain.

λq{>λ¯qrRetain.λ¯qrNot retain.

Observe que la segunda forma de expresar el criterio de retención es consistente tanto para el análisis de componentes principales como para el análisis de factores comunes (es decir, porque la definición de cambia según los componentes / factores, pero el La segunda forma de criterio de retención no se expresa en términos de ).λqadjλqadj

una cosa más ...
Tanto el análisis de componentes principales como el análisis de factores principales / análisis de factores comunes pueden basarse en la matriz de covarianza en lugar de la matriz de correlación. Debido a que esto cambia los supuestos / definiciones sobre la varianza total y común, solo las segundas formas del criterio de retención deben usarse al basar el análisis de uno en la matriz de covarianza.

Alexis
fuente
1
¡Excelente! La primera parte importante para mí es que sus criterios de retención usan , es decir, un valor de corte específico para cada factor . La oración cuestionable "análisis paralelo sugiere que solo los factores con un valor propio de 2.21 o más deben ser retenidos" es igual a . Esto es imposible. Para el análisis de componentes principales, los vectores propios se suman a , para el análisis factorial a . Solo existe una independientemente de para datos totalmente no correlacionados ( ) y luego es 0 (fa) o 1 (pca). ¿Correcto? λ¯qrq q λ¯qr=2.21p<pλ¯rqn
jhg
Había leído su artículo "Aclarando suavemente ..." antes y me gusta mucho. En esta publicación usted declara "utilizando los llamados valores propios de la regla de Kaiser mayores que cero se retienen para el análisis de factores principales / análisis de factores comunes" y en el documento hay un comentario similar. Desde el punto de vista matemático, es intuitivo y tiene mucho sentido: me pregunto por qué no me he encontrado con esto antes. ¿Hay otros documentos / libros sobre esto, o es "Aclarando suavemente ..." el primero en aclarar suavemente que cero es la referencia apropiada para el análisis factorial principal (si se usa el criterio de Kaiser)?
jhg
2
Posiblemente: pueden haber significado simplemente que el más pequeño de los valores propios observados mayor que (es decir, los que retuvieron) fue 2.21. Hay una advertencia que agregaría: la primera forma del criterio de retención debe revisarse cuando se usa la matriz de covarianza, . La suposición cuando se usa es que la varianza total (PCA) es igual a la suma de las variaciones observadas de los datos, y el traduce a : este número bien podría ser 2.21. λ¯rΣΣ>1>trace(Σ)/p
Alexis
@jhg Kaiser escribió "El límite inferior universalmente más fuerte [de Guttman] requiere que encontremos el número de raíces latentes positivas de la matriz de correlación observada con múltiplos cuadrados en la diagonal". Pero Guttman también estaba escribiendo sobre la matriz de correlación cuando describía la unidad como el límite crítico de los valores propios de R (no exclusiones de R) (desde la parte inferior de la página 154 hasta la parte superior de la página 155), aunque no saca explícitamente la lógica de R -Unicidades, lo saluda antes en el medio de la página 150.
Alexis
4

Sí, es posible tener un valor de 2.21 si el tamaño de la muestra no es infinitamente grande (o lo suficientemente grande ...). Esta es, de hecho, la motivación detrás del desarrollo del análisis paralelo como un aumento de la regla del valor propio 1.

Cito a Valle 1999 sobre esta respuesta y he puesto en cursiva la parte que habla directamente sobre su pregunta.

Selección del número de componentes principales: la varianza del criterio de error de reconstrucción con una comparación con otros métodos † Sergio Valle, Weihua Li y S. Joe Qin * Industrial & Engineering Chemistry Research 1999 38 (11), 4389-4401

Análisis Paralelo . El método PA básicamente construye modelos PCA para dos matrices: una es la matriz de datos original y la otra es una matriz de datos no correlacionada con el mismo tamaño que la matriz original. Este método fue desarrollado originalmente por Horn para mejorar el rendimiento de la prueba Scree. Cuando los valores propios de cada matriz se trazan en la misma figura, todos los valores sobre la intersección representan la información del proceso y los valores debajo de la intersección se consideran ruido. Debido a esta intersección, el método de análisis paralelo no es ambiguo en la selección del número de PC. Para un gran número de muestras, los valores propios para una matriz de correlación de variables no correlacionadas son 1. En este caso, el método PA es idéntico al método AE. Sin embargo, cuando las muestras se generan con un número finito de muestras, los valores propios iniciales exceden 1, mientras que los valores propios finales son inferiores a 1. Es por eso que Horn sugirió comparar los valores propios de la matriz de correlación para variables no correlacionadas con los de una matriz de datos real basada en El mismo tamaño de muestra.

Muerte mortal14
fuente
La pregunta es si un valor único de 2.21 puede ser razonable. Como la parte en cursiva en su cita de Valle et al. muestra con un número finito de observaciones, siempre habrá (a mi entender) siempre una serie de valores propios decrecientes. Por lo tanto, para cada factor de los datos originales, hay un valor propio diferente del análisis paralelo para comparar. Cuando el tamaño de la muestra se hace grande (un par de miles de individuos), los valores propios convergen a 1. En ese caso, podría entender una sola comparación, pero solo en el nivel 1.
jhg
¿No significa el 2.21 aquí para este conjunto de datos y el método utilizado (de modo que la combinación) 2.21 es el límite por debajo del cual el valor propio es demasiado pequeño? No estoy seguro de lo que quiere decir con "valor único". ¿Quieres decir, como regla general, como la regla del valor propio 1? El límite es diferente para cada análisis paralelo típicamente.
Deathkill14
Entiendo que el análisis paralelo depende del número de variables (en mi ejemplo anterior "10 tareas") y el número de observaciones (200 en el ejemplo). Por lo tanto, es muy específico para un conjunto de datos individual y no puede haber una regla general como "no use eigenvalue 1, use eigenvalue 2.21". Eso sería una tontería con seguridad. Pero para un ejemplo específico con 200 observaciones en 10 variables y, por lo tanto, de 1 a 10 factores. ¿Puede ser que un análisis paralelo sugiera retener factores con un valor propio mayor 2.21 independientemente de si el factor es el primero, segundo, tercero, ...?
jhg
La idea del valor de corte (digamos 1 o 2.21) es que debajo de ese valor la variación en un factor es esencialmente ruido (esencialmente ruido ya que ese es el valor propio de la matriz aleatoria). Por lo general, los factores se ordenan de mayor a menor valor propio, pero eso es quizás importante sobre todo para la interpretación. Entonces "primer segundo tercio" no están necesariamente fijos en piedra. En cualquier caso, se supone que los factores con valores propios superiores a 2.21 en su caso contienen más información que ruido. Guárdalos.
Deathkill14
2

Ciertamente, su ejemplo no está claro, pero puede que tampoco sea una tontería. Brevemente, considere la posibilidad de que el ejemplo base su regla de decisión en el valor propio del primer factor simulado que sea mayor que el factor real del mismo número de factor. Aquí hay otro ejemplo en:

d8a=data.frame(y=rbinom(99,1,.5),x=c(rnorm(50),rep(0,49)),z=rep(c(1,0),c(50,49)))
require(psych);fa.parallel(d8a)

Los datos son aleatorios, y solo hay tres variables, por lo que un segundo factor ciertamente no tendría sentido, y eso es lo que indica el análisis paralelo. * Los resultados también corroboran lo que @Alexis dijo sobre " El malentendido ".

Digamos que interpreto este análisis de la siguiente manera: "El análisis paralelo sugiere que solo los factores [ nocomponentes] con un valor propio de 1.2E-6 o más debe ser retenido ". Esto tiene cierto sentido porque ese es el valor del primer valor propio simulado que es mayor que el valor propio "real", y todos los valores propios a partir de entonces necesariamente disminuyen. Es una forma incómoda de informar ese resultado, pero al menos es coherente con el razonamiento de que uno debe mirar muy escépticamente cualquier factor (o componente) con valores propios que no sean mucho más grandes que los valores propios correspondientes de datos simulados, no correlacionados. Este debería ser el caso consistentemente después de la primera instancia en el diagrama de pantalla donde el valor propio simulado excede el valor propio real correspondiente. En el ejemplo anterior, el tercer factor simulado es muy ligeramente más pequeño que el tercer factor "real",


* En este caso, R dice: "El análisis paralelo sugiere que la cantidad de factores = 1 y la cantidad de componentes = 2", pero es de esperar que la mayoría de nosotros sepa que no debemos confiar en nuestro software para interpretar nuestras tramas por nosotros ... definitivamente no retendría el segundo componente solo porque es infinitamente más grande que el segundo componente simulado.

Nick Stauner
fuente
1
Gran idea creativa de cómo interpretar la oración. Lo consideré más que brevemente. No es el caso.
jhg
Oy Suena como un artículo raro con el que estás trabajando ...
Nick Stauner