Uso de correlación como métrica de distancia (para agrupamiento jerárquico)

22

Me gustaría agrupar jerárquicamente mis datos, pero en lugar de usar la distancia euclidiana, me gustaría usar la correlación. Además, dado que el coeficiente de correlación varía de -1 a 1, con -1 y 1 denotando "corregulación" en mi estudio, estoy tratando a -1 y 1 como d = 0. Entonces mi cálculo es d = 1 - El | r | d=1|r|

Leí en una pregunta separada (con respecto a la agrupación de k-medias), que debes convertir r en euclidiana verdadera d usando el teorema del coseno: d=2(1r)

¿Cuál es la forma más precisa de convertir la correlación en distancia para la agrupación jerárquica?

Megatron
fuente
3
Sí, uno de los posibles, y geométricamente cierto , es la última fórmula. Pero puede ignorar el signo de si tiene sentido para usted, de modo que d 2 = 2 ( 1 - | r | ) . En la mayoría de los casos, puede soltar 2 de forma segura sin afectar los resultados de la agrupación. La distancia se puede tratar como cuadrado euclidiano. En este hilo se discutió si las medidas de correlación convertidas a distancia son distancias métricas. rd2=2(1|r|)2
ttnphns
2
Además, no tiene que convertir siempre en una disimilitud lineal como la distancia euclidiana. No es tan raro que la gente haga agrupaciones basadas directamente en r o | r | como en similitud; es similitud angularrr|r|
ttnphns

Respuestas:

21

Requisitos para la agrupación jerárquica

La agrupación jerárquica se puede utilizar con medidas de similitud y disparidad arbitrarias. (La mayoría de las herramientas esperan una diferencia, pero permitirán valores negativos; depende de usted asegurarse de que se prefiera un valor pequeño o grande).

Solo los métodos basados ​​en centroides o varianza (como el método de Ward) son especiales y deben usarse con Euclidiana al cuadrado. (Para entender por qué, estudie estos vínculos cuidadosamente).

El enlace simple, el enlace promedio, el enlace completo no se ven muy afectados, seguirá siendo el mínimo / promedio / máximo de las diferencias de pares.

Correlación como medida de distancia

Si preprocesas tus datos ( n observaciones, p características) de modo que cada característica tenga μ=0 y σ=1 (¡lo que no permite características constantes!), La correlación se reduce a coseno:

Corr(X,Y)=Cov(X,Y)σXσY=E[(XμX)(YμY)]σXσY=E[XY]=1nX,Y

En las mismas condiciones, la distancia euclidiana al cuadrado también se reduce a coseno:

dEuclid2(X,Y)=(XiYi)2=Xi2+Yi22XiYi=2n2X,Y=2n[1Corr(X,Y)]

Por lo tanto, a menos que sus datos estén degenerados, usar la correlación para la agrupación jerárquica debería estar bien. Solo preprocese como se explicó anteriormente, luego use la distancia euclidiana al cuadrado.

Anony-Mousse
fuente
1
Only ward's method is special, and should be used with squared Euclidean. No solo de Ward. Cualquier método que calcule los centroides o las desviaciones de los centroides necesitará una distancia euclidiana o cuadrada euclidiana (dependiendo de la implementación), en aras de la precisión geométrica. Con la pérdida de tales y la debida advertencia, podrían usarse con otras distancias métricas. Esos métodos son centroide, "mediana", de Ward, varianza (¡no debe confundirse con Ward!) Y algunos otros.
ttnphns
Gracias, lo dejé más claro. No estaba al tanto de estas variaciones, solo estaba pensando en single / average / complete / ward.
Anony-Mousse
1
¡Hay muchos errores tipográficos y expresiones indefinidas en esta publicación! ¿Podría por favor revisarlo, arreglarlo y explicar qué ","son y qué"reyometro"podría referirse?
whuber