¿Una distancia tiene que ser una "métrica" ​​para que una agrupación jerárquica sea válida en ella?

9

Digamos que definimos una distancia, que no es una métrica , entre N elementos.

En base a esta distancia, usamos un agrupamiento jerárquico aglomerativo .

¿Podemos usar cada uno de los algoritmos conocidos (enlace único / máximo / promedio, etc.) para obtener resultados significativos? O dicho de otra manera, ¿cuál es el problema con su uso si la distancia no es una métrica?

Tal Galili
fuente
¿Qué son los "artículos" en su caso? (Estoy preguntando si tiene algo que ver con la psicometría porque si este es el caso, recomendaría echar un vistazo a la agrupación de elementos , o Revelle, W. Análisis jerárquico de grupos y la estructura interna de las pruebas , MBR (1979) 14 : 57.)
chl

Respuestas:

7

Los requisitos para distancias dependen del método de agrupamiento jerárquico. Los métodos simples, completos y promedio necesitan distancias para ser no negativos y simétricos. Los métodos Ward, centroide, mediana necesitan distancias euclidianas (al cuadrado, incluso más angostas que las métricas) para producir resultados geométricamente significativos.

(Se puede verificar si su matriz de distancia es euclidiana al centrarla doblemente [vea mi respuesta aquí ] y mirando los valores propios; si no se encuentran valores propios negativos, entonces las distancias convergen en el espacio euclidiano).

ttnphns
fuente
Gracias. Pregunta adicional: ¿la desigualdad del triángulo tiene que ser válida para métodos únicos, completos y promedio? y si alguna distancia (por ejemplo) no es simétrica, ¿qué problema plantea a estos métodos? (¡Gracias!)
Tal Galili
1
Los métodos de agrupamiento jerárquico clásico no pueden incluir nada más que una matriz simétrica: una distancia de A a B = de B a A. Existen otros métodos especiales para tratar con asimétricos (puede buscar en Google). En cuanto a la desigualdad triangular, no es una condición necesaria para los métodos que menciona. (Sin embargo, la sabiduría común piensa que la "distancia" es algo con la desigualdad, por lo que vale la pena considerar imponerla si falta. Para hacerlo, agregue iterativamente una pequeña constante a las distancias y verifique. Y si continúa agregando al llegar entonces pronto
llegarás a
5

d(A,B)max(d(A,C),d(B,C))

Las distancias ultramétricas obtenidas a partir de pasos sucesivos en el algoritmo de agrupamiento se pueden representar usando dendrogramas, que puede haber visto en este contexto.

Hong Ooi
fuente
Gracias Hong. Recuerdo que los métodos para transformar algunos objetos en clusters exigen que el dendrograma sea ultramétrico; me preocuparía más si esto tiene que ver con lo que usted escribió. En cualquier caso, gracias por la respuesta.
Tal Galili