Tengo un conjunto de puntos de datos en un espacio N-dimensional. Además, también tengo un centroide en este mismo espacio N-dimensional. ¿Hay algún enfoque que me permita proyectar estos puntos de datos en un espacio bidimensional mientras mantengo su información de distancia relativa en el espacio original? ¿Es PCA la correcta?
data-visualization
pca
multidimensional-scaling
pregunta de bit
fuente
fuente
Respuestas:
Un marco general que aborda su problema se llama reducción de dimensionalidad. Desea proyectar datos de N dimensiones a 2 dimensiones, al tiempo que conserva la "información esencial" en sus datos. El método más adecuado depende de la distribución de sus datos, es decir, la variedad N-dimensional. PCA se ajustará a un plano utilizando el criterio de mínimos cuadrados. Esto probablemente funcionará mal para el ejemplo de "rollo suizo": rollo suizo .
Los métodos más modernos incluyen Kernel PCA, LLE, mapas de difusión y representaciones de diccionario dispersas. Con respecto a la preservación de la distancia, algunos métodos pueden preservar distancias no euclidianas.
fuente
Como se mencionó en la respuesta anterior, hay varios métodos de reducción de dimensionalidad, y una cosa importante a considerar es qué está tratando de representar: ¿le interesan las medidas de distancia euclidiana? ¿O una métrica de similitud entre muestras?
Para el primero, PCA puede ser apropiado. Se usa comúnmente con medidas continuas, como mediciones de muestras (animales, plantas, etc.). Sin embargo, también miraría las menciones más modernas en la respuesta anterior.
Para este último, donde podría estar tratando de comparar la similitud utilizando una métrica de distancia no euclidiana, existen algunos buenos métodos como la Ordenación de componentes principales (PCoA) y la Escala multidimensional no métrica (NMDS). Un ejemplo de cuándo podría usarlos es cuando compara las comunidades ecológicas entre diferentes áreas y tiene un número de diferentes tipos de organismos que se encontraron. Entonces, sus datos son datos de "recuento". Hay una serie de métricas de similitud, como Jaccard, Sorensen, Bray-Curtis, que efectivamente le permiten estimar cuán similares son los sitios en su composición de organismos. PCoA y NMDS básicamente le permiten trazar las muestras (sitios) para representar la distancia ecológica (similitud), y tiene una puntuación para el sitio en cada eje.
Hay muchos libros buenos y otros recursos para el análisis multivariante. Busca "Ordenación" en Google. Además, hay un paquete R llamado 'vegano' que es realmente bueno para llevar a cabo gran parte de este trabajo.
fuente
Su problema suena como una aplicación de libro de texto para escalado multidimensional . Puede encontrar una buena introducción aquí: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm
Por supuesto que puedes probar PCA. Pero PCA no tiene intención de mantener la información de distancia relativa en el espacio original.
fuente