¿Cómo proyectar un espacio de alta dimensión en un plano bidimensional?

11

Tengo un conjunto de puntos de datos en un espacio N-dimensional. Además, también tengo un centroide en este mismo espacio N-dimensional. ¿Hay algún enfoque que me permita proyectar estos puntos de datos en un espacio bidimensional mientras mantengo su información de distancia relativa en el espacio original? ¿Es PCA la correcta?

pregunta de bit
fuente
1
Si desea tratar de preservar las distancias, mi primer pensamiento habría sido el escalamiento multidimensional en las distancias mismas (que está relacionado con PCA), pero dado que tiene las ubicaciones y no solo las distancias, según tengo entendido, PCA debería funcionar para eso .
Glen_b -Reinstate Monica
1
@Glen_b, el punto clave no es que MDS es para la entrada de distancias y PCA es para la entrada de coordenadas, sino que el MDS iterativo se adapta a pocas dimensiones mientras que PCA conserva pocas dimensiones. Por lo tanto, MDS conserva las distancias algo mejor que la PCA clásica. La respuesta a la pregunta es Sí, PCA es adecuado, pero MDS es más adecuado.
ttnphns
1
Esto es en gran medida lo que se estudia en el campo de la incrustación de espacio métrico , es decir, cómo puede reducir la dimensionalidad de sus datos mientras minimiza la distorsión de las distancias.
Bitwise

Respuestas:

6

Un marco general que aborda su problema se llama reducción de dimensionalidad. Desea proyectar datos de N dimensiones a 2 dimensiones, al tiempo que conserva la "información esencial" en sus datos. El método más adecuado depende de la distribución de sus datos, es decir, la variedad N-dimensional. PCA se ajustará a un plano utilizando el criterio de mínimos cuadrados. Esto probablemente funcionará mal para el ejemplo de "rollo suizo": rollo suizo .

Los métodos más modernos incluyen Kernel PCA, LLE, mapas de difusión y representaciones de diccionario dispersas. Con respecto a la preservación de la distancia, algunos métodos pueden preservar distancias no euclidianas.

Leeor
fuente
2
Es importante tener en cuenta que los métodos de "reducción de dimensionalidad" generalmente no mantienen "información de distancia relativa". Si lo hacen o no depende en parte del método y en parte de la "distancia" prevista.
whuber
2

Como se mencionó en la respuesta anterior, hay varios métodos de reducción de dimensionalidad, y una cosa importante a considerar es qué está tratando de representar: ¿le interesan las medidas de distancia euclidiana? ¿O una métrica de similitud entre muestras?

Para el primero, PCA puede ser apropiado. Se usa comúnmente con medidas continuas, como mediciones de muestras (animales, plantas, etc.). Sin embargo, también miraría las menciones más modernas en la respuesta anterior.

Para este último, donde podría estar tratando de comparar la similitud utilizando una métrica de distancia no euclidiana, existen algunos buenos métodos como la Ordenación de componentes principales (PCoA) y la Escala multidimensional no métrica (NMDS). Un ejemplo de cuándo podría usarlos es cuando compara las comunidades ecológicas entre diferentes áreas y tiene un número de diferentes tipos de organismos que se encontraron. Entonces, sus datos son datos de "recuento". Hay una serie de métricas de similitud, como Jaccard, Sorensen, Bray-Curtis, que efectivamente le permiten estimar cuán similares son los sitios en su composición de organismos. PCoA y NMDS básicamente le permiten trazar las muestras (sitios) para representar la distancia ecológica (similitud), y tiene una puntuación para el sitio en cada eje.

Hay muchos libros buenos y otros recursos para el análisis multivariante. Busca "Ordenación" en Google. Además, hay un paquete R llamado 'vegano' que es realmente bueno para llevar a cabo gran parte de este trabajo.

mtreg
fuente
0

Su problema suena como una aplicación de libro de texto para escalado multidimensional . Puede encontrar una buena introducción aquí: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm

Por supuesto que puedes probar PCA. Pero PCA no tiene intención de mantener la información de distancia relativa en el espacio original.

Weiwei
fuente