¿Son necesarias las transformaciones de datos en datos no normales para un análisis factorial exploratorio cuando se utiliza el método de extracción de factorización de eje principal?

9

Estoy desarrollando un cuestionario para medir cuatro factores que constituyen la espiritualidad, y me gustaría hacer la siguiente pregunta:

¿Son necesarias las transformaciones de datos en datos no normales para un análisis factorial exploratorio cuando se utiliza el método de extracción de factorización de eje principal?

Ayer terminé de analizar mis datos y descubrí que 3 de cada 20 preguntas están sesgadas positivamente, mientras que 1 de cada 20 tiene sesgos negativos (Pregunta 6 = 4.88, Pregunta 9 = 7.22, Pregunta 12 = 11.11, Pregunta 16 = -6.26). También encontré que 1 de las preguntas (de 20) es leptokurtic (Pregunta 12 = 12.21).

Elegí el método de extracción de factorización del eje principal porque leí que se usa en "datos severamente no normales" mientras que la máxima probabilidad se usa en datos normales, pero:

  1. ¿Cómo sabría si mis datos son "severamente" no normales?

  2. Si mis datos son "severamente no normales", ¿significa esto que puedo dejar los datos como están ahora (no transformarlos) y analizarlos usando el método de extracción de factorización de eje principal? ¿O necesito transformar los datos antes de continuar con el EFA?

  3. Si necesito transformar los datos, ¿qué transformaciones usaría para elementos con sesgo positivo, sesgo negativo y leptokurtic?

Madeline
fuente

Respuestas:

10

El análisis factorial es esencialmente un modelo de regresión lineal (restringido). En este modelo, cada variable analizada es la variable dependiente, los factores comunes son los IV y el factor único implícito sirve como término de error. (El término constante se establece en cero debido al centrado o la estandarización que están implicados en el cálculo de covarianzas o correlaciones). Entonces, exactamente como en la regresión lineal, podría existir una suposición "fuerte" de normalidad: los IV (factores comunes) son normales multivariados y los errores (factor único) son normales, lo que automáticamente lleva a que el DV sea normal; y suposición de normalidad "débil": los errores (factor único) son normales solamente, por lo tanto, el DV no necesita ser normal. Tanto en regresión como en FA generalmente admitimos suposición "débil" porque es más realista.

Entre los métodos clásicos de extracción de FA, solo el método de máxima verosimilitud, ya que se aparta de las características de la población, establece que las variables analizadas son multivariadas normales. Los métodos como los ejes principales o los residuos mínimos no requieren esta suposición "fuerte" (aunque puede hacerlo de todos modos).

Recuerde que incluso si sus variables son normales por separado, no necesariamente garantiza que sus datos sean multivariados normales.

Aceptemos la suposición "débil" de normalidad. ¿Cuál es la amenaza potencial que proviene de datos muy sesgados, como el suyo? Es un caso atípico. Si la distribución de una variable es fuertemente asimétrica, la cola más larga se vuelve más influyente en el cálculo de correlaciones o covarianzas, y simultáneamente provoca aprensión sobre si aún mide la misma construcción psicológica (el factor) que la cola más corta. Puede ser prudente comparar si las matrices de correlación construidas en la mitad inferior y la mitad superior de la escala de calificación son similares o no. Si son lo suficientemente similares, puede concluir que ambas colas miden lo mismo y no transforman sus variables. De lo contrario, debe considerar la transformación o alguna otra acción para neutralizar el efecto de la cola larga "atípica".

Las transformaciones son muchas. Por ejemplo, elevar a una potencia> 1 o exponenciación se utilizan para datos sesgados a la izquierda, y potencia <1 o logaritmo, para sesgos a la derecha. Mi propia experiencia dice que la llamada transformación óptima mediante PCA categórica realizada antes de FA es casi siempre beneficiosa, ya que generalmente conduce a factores más claros e interpretables en FA; bajo el supuesto de que se conoce el número de factores, transforma sus datos de forma no lineal para maximizar la varianza general que representa ese número de factores.

ttnphns
fuente
¡Gracias por tu respuesta! ¿Y recomendaría eliminar la pregunta 12 ya que es positivamente sesgada y leptokurtica, o sería mejor dejarla y transformarla?
Madeline
Me abstendría de dar consejos directos, no estar en tus zapatos. En términos más generales, las preguntas crónicamente muy sesgadas (= demasiado difíciles o demasiado fáciles) o leptokurtic (insensibles a las diferencias entre los encuestados típicos) son psicométricamente "malas" y vale la pena revisarlas.
ttnphns
1

Acabo de publicar lo que aprendí de Yong y Pearce (2013).

Para realizar un análisis factorial, debe haber una normalidad univariada y multivariada dentro de los datos (Child, 2006)

Yong, AG y Pearce, S. (2013). Una guía para principiantes para el análisis factorial: centrándose en el análisis factorial exploratorio. Tutoriales en métodos cuantitativos para psicología , 9 (2), 79-94. DOI: 10.20982 / tqmp.09.2.p079

Chris Kelly
fuente