¿Cuáles son las distancias entre las variables que forman una matriz de covarianza?

Tengo una matriz de covarianza y quiero dividir las variables en clústeres usando el agrupamiento jerárquico (por ejemplo, para ordenar una matriz de covarianza). $n \times n$ $k$

¿Existe una función de distancia típica entre variables (es decir, entre columnas / filas de la matriz de covarianza cuadrada)?

O si hay más, ¿hay una buena referencia sobre el tema?

clustering covariance distance-functions distance Piotr Migdal
fuente

¿Por qué querrías usar el agrupamiento jerárquico en las variables? Generalmente, pensamos en una matriz de datos

X

$X$ , w / variables en columnas y observaciones en filas. Si desea buscar agrupaciones latentes, puede intentar, por ejemplo, agrupamiento jerárquico en filas / observaciones, o, por ejemplo, análisis factorial en columnas / variables.

gung - Restablece a Monica

@Piotr, Sí, la covarianza (o correlación o coseno) se puede convertir fácil y naturalmente en distancia euclidiana, porque es un producto escalar (= similitud de tipo angular). Conocer la covarianza entre dos variables, así como sus variaciones, implica automáticamente conocer d entre las variables:

d^{2} = σ_{1}^{2} + σ_{2}^{2} - 2 c o v

$d^2= \sigma_1^2+\sigma_2^2-2cov$ .

ttnphns

Tenga en cuenta que esta fórmula significa que una covarianza negativa es mayor distancia que la covarianza positiva (y este es el caso desde el punto de vista geométrico). Si no desea que el signo de la covarianza desempeñe un papel, elimine el signo negativo.

ttnphns

@gung Es una matriz simétrica, entonces filas ~ columnas. Para mí es crucial dividirlo en conjuntos de variables, no 'rotarlas' con análisis factorial (en realidad, no estoy trabajando con una matriz de cov. Estándar, sino con una compleja (matriz de densidad en mecánica cuántica)).

Piotr Migdal

@ttnphns Gracias. Lo que me molesta es que quiero separar las variables no correlacionadas: la correlación negativa es para mí (casi) tan buena como la positiva.

Piotr Migdal

Respuestas:

La covarianza (o correlación o coseno) se puede convertir fácil y naturalmente en distancia euclidiana por medio de la ley de cosenos , porque es un producto escalar (= similitud de base angular) en el espacio euclidiano. Conocer la covarianza entre dos variables i y j , así como sus variaciones, implica automáticamente conocer d entre las variables: . (Que es directamente proporcional a la distancia euclidiana al cuadrado habitual $d_{ij}^2 = \sigma_i^2 + \sigma_j^2 −2cov_{ij}$ $d_{ij}^2$ : obtienes este último si usas las sumas de cuadrados y la suma de los productos cruzados en lugar de las varianzas y la covarianza. Ambas variables deberían, por supuesto, estar centradas inicialmente: hablar de "covarianzas" es un alias para pensar en datos con medios eliminados).

Tenga en cuenta que esta fórmula significa que una covarianza negativa es mayor distancia que la covarianza positiva (y este es el caso desde el punto de vista geométrico, es decir, cuando las variables se ven como vectores en el espacio sujeto ). Si no desea que el signo de la covarianza desempeñe un papel, elimine el signo negativo. Ignorar el signo negativo no es una operación "parchear a mano" y está garantizado, cuando sea necesario: si la matriz cov es positiva definida, la matriz abs (cov) también será positiva definida; y por lo tanto las distancias obtenidas por la fórmula anterior serán verdaderas euclidianas distancias (distancia euclidiana es un tipo particular de métrica de distancia).

Las distancias euclidianas son universales con respecto a la agrupación jerárquica : cualquier método de dicha agrupación es válido con euclidiana o cuadrada euclidiana d . Pero algunos métodos, por ejemplo, el enlace promedio o el enlace completo, se pueden usar con cualquier disimilitud o similitud (no solo distancias métricas). Por lo tanto, puede usar dichos métodos directamente con la matriz de distancia cov o abs (cov) o, por ejemplo, con la matriz de distancia max (abs (cov)) - abs (cov) . Por supuesto, los resultados de agrupamiento dependen potencialmente de la naturaleza exacta de la (des) similitud utilizada.

ttnphns
fuente

¿Cómo se define ? Descubrí que esto es igual al valor esperado de la distancia al cuadrado entre dos variables estocásticas si ambas variables tienen la misma media, pero no si tienen una media diferente (entonces será menor).

d_{i j}^{2}

$d^2_{ij}$

d_{i j}^{2}

$d^2_{ij}$

HelloGoodbye

@HelloGoodbye, sí, me refiero a dos variables (vectores) con los mismos medios, en realidad, con los medios eliminados, en primera instancia.

ttnphns

¿Por qué no usar la matriz de correlación para hacer el agrupamiento? Suponiendo que sus variables aleatorias están centradas, al calcular la correlación entre las variables, está calculando la distancia de similitud del coseno . Esta distancia también se menciona en su enlace. Esta distancia se puede usar para la agrupación jerárquica. Cuanto menor sea la similitud de coseno 1 - |, más similares serán sus variables.

Jorge Banuelos
fuente

¿Y sus propiedades? No tengo ningún problema para llegar con algunas distancias (por ejemplo, , o una efectivamente igual a la del coseno dist., O algunos relacionados con proyecciones en vectores propios). Solo quiero hacerlo de una manera educada adaptada a la matriz de covarianza.

d (i, j) = 1 - A_{i j}^{2} / (A_{i i} A_{j j})

$d(i,j)=1-A_{ij}^2/(A_{ii}A_{jj})$

Piotr Migdal

Ah, perdón por el malentendido. La mejor fuente que conozco es esta . Estudian la calidad de varias métricas (que usan correlación) con agrupamiento jerárquico. Para la agrupación jerárquica, normalmente pruebo muchas métricas y veo cuál funciona mejor para mi objetivo y datos particulares.

Jorge Banuelos

el enlace ya no parece funcionar?

Matifou