¿Hay análisis factorial o PCA para datos ordinales o binarios?

28

He completado el análisis de componentes principales (PCA), el análisis factorial exploratorio (EFA) y el análisis factorial confirmatorio (CFA), tratando los datos con escala likert (respuestas de 5 niveles: ninguno, poco, algunos, ..) como un continuo variable. Luego, usando Lavaan, repetí el CFA definiendo las variables como categóricas.

Me gustaría saber para qué tipos de análisis serían apropiados y equivalentes a PCA y EFA cuando los datos son de naturaleza ordinal . Y cuando binario .

También agradecería sugerencias para paquetes o softwares específicos que puedan implementarse fácilmente para tales análisis.

usuario116948
fuente

Respuestas:

38

El análisis tradicional (lineal) de PCA y factor requiere datos a nivel de escala (intervalo o relación). A menudo, se supone que los datos de calificación de tipo likert son a nivel de escala, porque dichos datos son más fáciles de analizar. Y la decisión a veces se justifica estadísticamente, especialmente cuando el número de categorías ordenadas es mayor que 5 o 6. (Aunque lógicamente, la cuestión del tipo de datos y el número de niveles de escala son distintos).

Sin embargo, ¿qué sucede si prefiere tratar la escala likert politómica como ordinal? ¿O tienes datos dicotómicos? ¿Es posible hacer análisis factoriales exploratorios o PCA para ellos?

Actualmente hay tres enfoques principales para realizar FA (incluido PCA como su caso especial) en variables ordinales o binarias categóricas (lea también esta cuenta sobre el caso de datos binarios y esta consideración sobre lo que podría hacerse con la escala ordinal).

  1. Enfoque de escalamiento óptimo (una familia de aplicaciones ). También se llama PCA categórica (CatPCA) o FA no lineal. En CatPCA, las variables ordinales se transforman monotónicamente ("cuantificadas") en sus versiones de intervalo "subyacentes" bajo el objetivo de maximizar la varianza explicada por el número seleccionado de componentes principales extraídos de esos datos de intervalo. Lo que hace que el método esté abiertamente orientado a objetivos (en lugar de guiado por la teoría) e importante para decidir de antemano el número de componentes principales. Si se necesita una verdadera FA en lugar de una PCA, la FA lineal habitual se puede realizar naturalmente en las variables transformadas que salen de CatPCA. Con las variables binarias, CatPCA (¿lamentablemente?) Se comporta de la manera habitual de PCA, es decir, como si fueran variables continuas. CatPCA acepta también variables nominales y cualquier combinación de tipos de variables (agradable).

  2. Enfoque variable subyacente inferido . También conocido como PCA / FA realizado en correlaciones tetracóricas (para datos binarios) o policóricas (para datos ordinales). Se supone una distribución normal para la variable continua subyacente (luego agrupada) para cada variable de manifiesto. Luego se aplica la FA clásica para analizar las correlaciones mencionadas anteriormente. El enfoque permite fácilmente una mezcla de intervalo, ordinal, datos binarios. Una desventaja del enfoque es que, al inferir las correlaciones, no tiene pistas sobre la distribución multivariada de las variables subyacentes, puede "concebir" en la mayoría de las distribuciones bivariadas, por lo que no se basa en información completa.

  3. Enfoque de la teoría de respuesta al ítem (IRT). A veces también se llama FA logística o análisis de rasgos latentes . Se aplica un modelo muy cercano al logit binario (para datos binarios) o al modelo de probabilidades de log proporcionales (para datos ordinales). El algoritmo no está vinculado con la descomposición de una matriz de correlación, por lo que está un poco alejado de la FA tradicional, aún así es una FA categórica de buena fe. Los "parámetros de discriminación" corresponden estrechamente a las cargas de FA, pero las "dificultades" reemplazan la noción de "unicidad" de FA. La certeza de ajuste IRT disminuye rápidamente a medida que crece el número de factores, lo cual es un lado problemático de este enfoque. IRT es extensible a su manera para incorporar intervalo mixto + binario + ordinal y posiblemente variables nominales.

Las puntuaciones de los factores en los enfoques (2) y (3) son más difíciles de estimar que las puntuaciones de los factores en el AF clásico o en el enfoque (1). Sin embargo, existen varios métodos (métodos esperados o máximos aposteriori, método de máxima verosimilitud, etc.).

Los supuestos del modelo de análisis factorial son principalmente los mismos en los tres enfoques que en la AF tradicional. Enfoque (1) está disponible en R, SPSS, SAS (en mi opinión). Los enfoques (2) y (3) se implementan principalmente en paquetes especializados de variables latentes: Mplus, LISREL, EQS.

  1. Enfoque polinómico. Eso no se ha desarrollado en su totalidad todavía. Los componentes principales se pueden modelar como combinaciones polinómicas de variables (el uso de polinomios es una forma popular de modelar los efectos no lineales de los regresores ordinales). Además, las categorías observadas a su vez pueden modelarse como manifestaciones discretas de combinaciones polinómicas de factores latentes.

  2. Existe un campo floreciente de técnicas no lineales de reducción de dimensionalidad; algunos de ellos se pueden aplicar o adoptar para trabajar con datos categóricos (especialmente binarios o después de binarizar en un conjunto de datos dispersos de alta dimensión).

  3. Realización de FA / PCA clásico (lineal) en correlaciones de rango u otras asociaciones adecuadas para datos categóricos (Spearman / Kendall / Somer, etc.). En el caso de los datos ordinales, ese es un enfoque puramente heurístico, que carece de fundamentos teóricos y no se recomienda en absoluto. Con los datos binarios, las correlaciones Spearman rho y Kendall tau-b y la asociación Phi son iguales a la correlación Pearson r, por lo tanto, usarlas no es más que hacer un FA / PCA lineal habitual en los datos binarios (algunos peligros aquí ). También es posible (aunque no incuestionable) hacer el análisis en reescalado con su límite de magnitud actual.r

Mira también en esto , esto , esto , esto , esto , esto , esto , esto .

ttnphns
fuente
3
Respuesta fenomenal. Lo único que debo agregar es que creo que puede usar el paquete psicológico en R para implementar enfoques en (2) (vea la opción "cor" para la función fa) y (3) (vea las funciones irt.fa y irt.poly ) en varios grados, y el paquete ltm también se puede utilizar para adaptarse a varios modelos IRT.
jsakaluk
1
Pueden diferir así. Hice varias veces la creación / validación de inventario por "FA no lineal" (CatPCA-then-EFA) y he encontrado resultados mejores que los de EFA (lineal) habitual. El procedimiento que adopté fue similar al de FA habitual, la única diferencia es que para cada análisis, cada conjunto de elementos que pruebo y cada número de factores que extraigo, hice CatPCA y luego (en las variables cuantificadas) -EFA pas de deux .
ttnphns
@jsakaluk, muchas gracias por la información. (No soy usuario de R, así que solo conozco mal su capacidad fenomenal).
ttnphns
Gracias por tales respuestas exhaustivas. @ttnphns He pasado la mayor parte del día tratando de implementar CATPCA en SPSS 23. Me las arreglé para localizar dos tutoriales (Linting y Kooij (2012) y unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/… ) todavía no respondí algunas de mis propias preguntas. ¿Podría sugerir una buena salida para abordar algunas cuestiones técnicas? Gracias de nuevo.
user116948
1
@ user116948, si tiene problemas para comprender cómo trabajar con él en SPSS: en primer lugar, busque y lea el estudio de caso de CATPCA en el submenú Estudios de caso de SPSS en el menú Ayuda. En segundo lugar, explore todas las preguntas sobre CATPCA que ya se hicieron en este sitio. Tercero: si aún tiene preguntas, hágalo como una nueva pregunta en el sitio. No se preocupe: si es "demasiado técnico", podría transferirse a StackOveflow. Adelante: elija una comunidad SPSS para hacer su pregunta (SPSSXL es la mejor). Saludos a ti.
ttnphns