Tengamos una matriz simétrica cuadrada de distancias euclidianas cuadradas entre puntos y un vector alargado indica la pertenencia a un grupo o grupo ( grupos) de los puntos; un clúster puede consistir en punto.
¿Cuál es la forma más eficiente o realmente eficiente (en términos de velocidad) para calcular las distancias entre los centroides del grupo aquí?
Hasta ahora siempre hice el análisis de la Coordinadora Principal en esta situación. PCoA, o MDS de Torgerson equivale a convertir primero en la matriz de productos escalares ("doble centrado") y luego realizar PCA de él. De esta manera creamos coordenadas para los puntos en el espacio euclidiano que abarcan. Después de eso, es fácil calcular las distancias entre los centroides de la manera habitual, como lo haría con los datos. PCoA tiene que hacer descomposición propia o SVD de la semidefinida simétrica positiva , perogrouped points x variables
n x n
puede ser bastante grande Además, la tarea no es una reducción de dimensionalidad y en realidad no necesitamos esos ejes principales ortogonales. Así que tengo la sensación de que estas descomposiciones pueden ser una exageración.
Entonces, ¿tiene conocimiento o ideas sobre una forma potencialmente más rápida?
fuente