¿Es posible visualizar el resultado del análisis de componentes principales de manera que proporcione más información que solo tablas de resumen? ¿Es posible hacerlo cuando el número de observaciones es grande, digamos ~ 1e4? ¿Y es posible hacerlo en R [otros entornos bienvenidos]?
r
data-visualization
pca
biplot
alegre
fuente
fuente
Respuestas:
El biplot es una herramienta útil para visualizar los resultados de PCA. Le permite visualizar las puntuaciones e instrucciones del componente principal simultáneamente. Con 10,000 observaciones, probablemente te encuentres con un problema de sobre-trazado. La mezcla alfa podría ayudar allí.
Aquí hay un biplot de PC de los datos del vino del repositorio UCI ML :
Los puntos corresponden a las puntuaciones PC1 y PC2 de cada observación. Las flechas representan la correlación de las variables con PC1 y PC2. El círculo blanco indica la extensión máxima teórica de las flechas. Las elipses son elipses de datos del 68% para cada una de las 3 variedades de vino en los datos.
He hecho el código para generar esta trama disponible aquí .
fuente
Un diagrama de Wachter puede ayudarlo a visualizar los valores propios de su PCA. Es esencialmente una gráfica QQ de los valores propios contra la distribución Marchenko-Pastur. Tengo un ejemplo aquí: hay un valor propio dominante que queda fuera de la distribución Marchenko-Pastur. La utilidad de este tipo de trama depende de su aplicación.
fuente
También podrías usar el paquete psicológico.
Este contiene un método plot.factor, que trazará los diferentes componentes uno contra el otro en el estilo de una matriz de diagrama de dispersión.
fuente