Me gustaría agrupar jerárquicamente mis datos, pero en lugar de usar la distancia euclidiana, me gustaría usar la correlación. Además, dado que el coeficiente de correlación varía de -1 a 1, con -1 y 1 denotando "corregulación" en mi estudio, estoy tratando a -1 y 1 como d = 0. Entonces mi cálculo es d = 1 - El | r |
Leí en una pregunta separada (con respecto a la agrupación de k-medias), que debes convertir r en euclidiana verdadera d usando el teorema del coseno:
¿Cuál es la forma más precisa de convertir la correlación en distancia para la agrupación jerárquica?
Respuestas:
Requisitos para la agrupación jerárquica
La agrupación jerárquica se puede utilizar con medidas de similitud y disparidad arbitrarias. (La mayoría de las herramientas esperan una diferencia, pero permitirán valores negativos; depende de usted asegurarse de que se prefiera un valor pequeño o grande).
Solo los métodos basados en centroides o varianza (como el método de Ward) son especiales y deben usarse con Euclidiana al cuadrado. (Para entender por qué, estudie estos vínculos cuidadosamente).
El enlace simple, el enlace promedio, el enlace completo no se ven muy afectados, seguirá siendo el mínimo / promedio / máximo de las diferencias de pares.
Correlación como medida de distancia
Si preprocesas tus datos (n observaciones, p características) de modo que cada característica tenga μ=0 y σ=1 (¡lo que no permite características constantes!), La correlación se reduce a coseno:
En las mismas condiciones, la distancia euclidiana al cuadrado también se reduce a coseno:
Por lo tanto, a menos que sus datos estén degenerados, usar la correlación para la agrupación jerárquica debería estar bien. Solo preprocese como se explicó anteriormente, luego use la distancia euclidiana al cuadrado.
fuente
Only ward's method is special, and should be used with squared Euclidean
. No solo de Ward. Cualquier método que calcule los centroides o las desviaciones de los centroides necesitará una distancia euclidiana o cuadrada euclidiana (dependiendo de la implementación), en aras de la precisión geométrica. Con la pérdida de tales y la debida advertencia, podrían usarse con otras distancias métricas. Esos métodos son centroide, "mediana", de Ward, varianza (¡no debe confundirse con Ward!) Y algunos otros.