Actualmente estoy preparando una presentación para un curso universitario en "Análisis de datos visuales". Y uno de mis temas es la visualización "Star Coordinate". Coordenadas estelares
A medida que Star Coordinates realiza una transformación de datos de alta dimensión, y la conocida técnica PCA también lo hace, me pregunto si Star Coordinates puede imitar PCA. ¿Pienso en reorganizar los ejes de coordenadas de manera que representen una combinación lineal de las variables originales? Pero esto es solo una idea. ¿Alguien puede confirmar o refutar esto?
data-visualization
pca
large-data
VisioGuy
fuente
fuente
mimic PCA by Star Coordinates
es demasiado vaga para plantear un problema real (por lo que podría hacerse una pregunta). Uno puede aconsejarle que intente hacerlo primero y luego, si tiene problemas o dudas, haga una pregunta.Respuestas:
PCA y "coordenadas de estrella" hacen cosas diferentes. Debido a que las coordenadas en estrella estandarizan todos los valores, una comparación equitativa aplicaría PCA a una matriz de correlación (en lugar de la matriz de covarianza), que es otra forma de estandarizar los valores.
PCA identifica un sistema de coordenadas adaptado a la forma de los datos, mientras que las coordenadas de estrella se basan en las coordenadas dadas originalmente en los datos.
Esto hace que PCA sea mucho más flexible para descubrir relaciones entre los datos. En contraste, las "coordenadas de estrella" no son mucho más que un gráfico 2D de información univariante .
PCA (cuando se realiza en una matriz de correlación) utiliza los medios de datos para el origen y sus desviaciones estándar para las escalas. Las coordenadas de estrella usan los datos mínimos para el origen y sus rangos para las escalas.
Los mínimos y rangos son mucho más sensibles a los datos periféricos que las desviaciones estándar, lo que hace que las coordenadas de estrella sean menos adecuadas para la exploración de datos de propósito general.
Como tal, cada uno tiene sus puntos fuertes, aunque los puntos fuertes particulares de las coordenadas de estrella en relación con PCA son difíciles de comprender.
Como ejemplo, considere estos dos conjuntos de datos 3D. Cada uno consta de 300 puntos y en cada uno la nube de puntos tiene una forma de "panqueque" elíptica muy plana. (Los valores singulares de cada matriz de correlación están cerca de .) La fila superior de la figura presenta las matrices de correlación, la segunda fila muestra una vista de las nubes de puntos en pseudo 3D (orientado aproximadamente para capturar los dos componentes principales más grandes), y la fila inferior es la imagen de "coordenadas de estrella" de los mismos puntos.{2,1,.01}
Debido a las diferentes orientaciones de estas nubes de puntos en relación con los ejes de coordenadas originales, los gráficos de coordenadas de estrella son completamente diferentes. Esto es característico: las coordenadas de estrella proporcionan información (muy limitada) sobre las coordenadas originales, mientras que PCA revela relaciones entre las coordenadas.
También puede ver que las coordenadas de estrella son una especie de proyección "accidental": a veces capturarán componentes principales grandes de los datos, como en la versión de la izquierda, y a veces capturarán componentes grandes y pequeños (como en la mano derecha) , y en otros momentos (no ilustrados) capturan solo componentes pequeños (y todos los puntos están agrupados densamente cerca del origen, sin revelar casi nada).
fuente