Digamos que definimos una distancia, que no es una métrica , entre N elementos.
En base a esta distancia, usamos un agrupamiento jerárquico aglomerativo .
¿Podemos usar cada uno de los algoritmos conocidos (enlace único / máximo / promedio, etc.) para obtener resultados significativos? O dicho de otra manera, ¿cuál es el problema con su uso si la distancia no es una métrica?
Respuestas:
Los requisitos para distancias dependen del método de agrupamiento jerárquico. Los métodos simples, completos y promedio necesitan distancias para ser no negativos y simétricos. Los métodos Ward, centroide, mediana necesitan distancias euclidianas (al cuadrado, incluso más angostas que las métricas) para producir resultados geométricamente significativos.
(Se puede verificar si su matriz de distancia es euclidiana al centrarla doblemente [vea mi respuesta aquí ] y mirando los valores propios; si no se encuentran valores propios negativos, entonces las distancias convergen en el espacio euclidiano).
fuente
Las distancias ultramétricas obtenidas a partir de pasos sucesivos en el algoritmo de agrupamiento se pueden representar usando dendrogramas, que puede haber visto en este contexto.
fuente