Visualizando un millón, edición PCA

31

¿Es posible visualizar el resultado del análisis de componentes principales de manera que proporcione más información que solo tablas de resumen? ¿Es posible hacerlo cuando el número de observaciones es grande, digamos ~ 1e4? ¿Y es posible hacerlo en R [otros entornos bienvenidos]?

alegre
fuente
2
Algunas preguntas: ¿Cuántos componentes tienes? Además del tamaño de la muestra, ¿hay algo que haga que la visualización de esta salida PCA deba ser diferente de la visualización de otras variables continuas con las que uno podría estar lidiando? ¿Estás tratando de contrastar puntuaciones de diferentes grupos, y si es así, cuántos? En general, ¿qué espera lograr con sus pantallas?
rolando2

Respuestas:

53

El biplot es una herramienta útil para visualizar los resultados de PCA. Le permite visualizar las puntuaciones e instrucciones del componente principal simultáneamente. Con 10,000 observaciones, probablemente te encuentres con un problema de sobre-trazado. La mezcla alfa podría ayudar allí.

Aquí hay un biplot de PC de los datos del vino del repositorio UCI ML :

PC Biplot de Wine Data del repositorio UCI ML

Los puntos corresponden a las puntuaciones PC1 y PC2 de cada observación. Las flechas representan la correlación de las variables con PC1 y PC2. El círculo blanco indica la extensión máxima teórica de las flechas. Las elipses son elipses de datos del 68% para cada una de las 3 variedades de vino en los datos.

He hecho el código para generar esta trama disponible aquí .

vqv
fuente
55
Una adición realmente dinamita.
rolando2
1
pags×2VVVT
V
4

Un diagrama de Wachter puede ayudarlo a visualizar los valores propios de su PCA. Es esencialmente una gráfica QQ de los valores propios contra la distribución Marchenko-Pastur. Tengo un ejemplo aquí: Gráfico de Wachter que muestra un único valor propio dominantehay un valor propio dominante que queda fuera de la distribución Marchenko-Pastur. La utilidad de este tipo de trama depende de su aplicación.

shabbychef
fuente
77
Sería útil saber más aquí (tal vez alguna explicación adicional y / o algunos enlaces útiles). ¿Cuál es la distribución Marchenko-Pastur? ¿Cómo se relaciona con PCA? ¿Qué significa para sus resultados si se mantiene o no? (etc)
gung - Restablece a Monica
0

También podrías usar el paquete psicológico.

Este contiene un método plot.factor, que trazará los diferentes componentes uno contra el otro en el estilo de una matriz de diagrama de dispersión.

richiemorrisroe
fuente