Tengo una matriz de covarianza y quiero dividir las variables en clústeres usando el agrupamiento jerárquico (por ejemplo, para ordenar una matriz de covarianza).k
¿Existe una función de distancia típica entre variables (es decir, entre columnas / filas de la matriz de covarianza cuadrada)?
O si hay más, ¿hay una buena referencia sobre el tema?
clustering
covariance
distance-functions
distance
Piotr Migdal
fuente
fuente
Respuestas:
La covarianza (o correlación o coseno) se puede convertir fácil y naturalmente en distancia euclidiana por medio de la ley de cosenos , porque es un producto escalar (= similitud de base angular) en el espacio euclidiano. Conocer la covarianza entre dos variables i y j , así como sus variaciones, implica automáticamente conocer d entre las variables: . (Que es directamente proporcional a la distancia euclidiana al cuadrado habitual d 2 i jd2ij=σ2i+σ2j−2covij d2ij : obtienes este último si usas las sumas de cuadrados y la suma de los productos cruzados en lugar de las varianzas y la covarianza. Ambas variables deberían, por supuesto, estar centradas inicialmente: hablar de "covarianzas" es un alias para pensar en datos con medios eliminados).
Tenga en cuenta que esta fórmula significa que una covarianza negativa es mayor distancia que la covarianza positiva (y este es el caso desde el punto de vista geométrico, es decir, cuando las variables se ven como vectores en el espacio sujeto ). Si no desea que el signo de la covarianza desempeñe un papel, elimine el signo negativo. Ignorar el signo negativo no es una operación "parchear a mano" y está garantizado, cuando sea necesario: si la matriz cov es positiva definida, la matriz abs (cov) también será positiva definida; y por lo tanto las distancias obtenidas por la fórmula anterior serán verdaderas euclidianas distancias (distancia euclidiana es un tipo particular de métrica de distancia).
Las distancias euclidianas son universales con respecto a la agrupación jerárquica : cualquier método de dicha agrupación es válido con euclidiana o cuadrada euclidiana d . Pero algunos métodos, por ejemplo, el enlace promedio o el enlace completo, se pueden usar con cualquier disimilitud o similitud (no solo distancias métricas). Por lo tanto, puede usar dichos métodos directamente con la matriz de distancia cov o abs (cov) o, por ejemplo, con la matriz de distancia max (abs (cov)) - abs (cov) . Por supuesto, los resultados de agrupamiento dependen potencialmente de la naturaleza exacta de la (des) similitud utilizada.
fuente
¿Por qué no usar la matriz de correlación para hacer el agrupamiento? Suponiendo que sus variables aleatorias están centradas, al calcular la correlación entre las variables, está calculando la distancia de similitud del coseno . Esta distancia también se menciona en su enlace. Esta distancia se puede usar para la agrupación jerárquica. Cuanto menor sea la similitud de coseno 1 - |, más similares serán sus variables.
fuente