Variables sesgadas en PCA o análisis factorial

9

Quiero hacer un análisis de componentes principales (análisis factorial) en SPSS basado en 22 variables. Sin embargo, algunas de mis variables están muy sesgadas (¡la asimetría calculada a partir de SPSS varía de 2 a 80!).

Asi que aqui están mis preguntas:

¿Debo mantener las variables sesgadas de esa manera o podría transformar las variables en el análisis de componentes principales? En caso afirmativo, ¿cómo interpretaría las puntuaciones de los factores?
¿Qué tipo de transformación debo hacer? log10 o ln?
Originalmente, mi KMO (Kaiser – Meyer – Olkin) es 0.413. Mucha literatura recomienda un mínimo de 0.5. ¿Puedo seguir haciendo análisis factoriales o necesito eliminar variables para aumentar mi KMO a 0.5?

pca factor-analysis dimensionality-reduction skewness Meo
fuente

55

Una nota: PCA no es lo mismo que el análisis factorial. PCA es un método de reducción de datos, FA es un intento de encontrar variables latentes. A menudo (pero no siempre) dan resultados similares

Peter Flom - Restablece a Monica

9

El problema de inclinación en PCA es el mismo que en la regresión: la cola más larga, si es realmente larga en relación con el rango completo de la distribución, en realidad se comporta como un gran valor atípico: tira de la línea de ajuste (componente principal en su caso) fuertemente hacia a sí mismo porque su influencia aumenta; su influencia aumenta porque está muy lejos de la media. En el contexto de PCA, permitir variables muy asimétricas es bastante similar a hacer PCA sin centrar los datos (es decir, hacer PCA sobre la base de la matriz de coseno en lugar de la matriz de correlación). Es usted quien decide si permitir que la cola larga influya en los resultados de manera tan importante (y dejar que los datos sean) o no (y transformar los datos). El problema no está relacionado con la forma de interpretar las cargas.
Como quieras.
KMO es un índice que le indica si las correlaciones parciales son razonablemente pequeñas para enviar datos al análisis factorial. Porque en el análisis factorial generalmente esperamos que un factor cargue más que solo dos variables. Tu KMO es lo suficientemente bajo. Puede mejorarlo si elimina las variables de análisis con valores de KMO individuales bajos (estos forman la diagonal de la matriz anti-imagen , puede solicitar que se muestre esta matriz en el procedimiento Factor SPSS). ¿Pueden transformar las variables en KMO menos sesgadas recuperar Quién sabe. Tal vez. Tenga en cuenta que KMO es importante principalmente en el modelo de análisis factorial, no en el modelo de análisis de componentes principales: en FA se ajustan las correlaciones por pares, mientras que en PCA no.

ttnphns
fuente

2

+1 a @ttnphns, solo quiero expandirme un poco en el punto # 2. Las transformaciones se usan a menudo para estabilizar la inclinación. Como señala @ttnphns, los usaría antes de ejecutar sus análisis. Las transformaciones de registros son parte de la familia de transformaciones de poder de Box-Cox. Deberá considerar una gama más amplia de posibles transformaciones que solo registros (por ejemplo, raíz cuadrada, recíproca, etc.). La elección entre diferentes bases logarítmicas no tiene efecto sobre la fuerza de la transformación. Cuando las personas van a trabajar matemáticamente con la variable transformada, a veces se prefieren los registros naturales, ya que el registro natural puede hacer que las matemáticas sean más limpias en algunos casos. Si no le importa, puede elegir una base que facilite la interpretación. Es decir, cada unidad de aumento en la nueva escala representará una base-el aumento de la escala original (p. ej., si usó la base de registro 2, entonces cada unidad sería un aumento de 2 veces, la base 10 significa que cada unidad sería un aumento de 10 veces, etc.), por lo que puede ser agradable para elegir una base que permita que sus datos abarquen varias unidades en la escala transformada.

gung - Restablece a Monica
fuente

Variables sesgadas en PCA o análisis factorial

Respuestas: