La covarianza / correlación de distancia (= covarianza / correlación browniana) se calcula en los siguientes pasos:
- Matriz Compute de las distancias euclidianas entre
N
los casos por la variable , y otra matriz igualmente por la variable Y . Cualquiera de las dos características cuantitativas, X o Y , puede ser multivariante, no solo univariante.XYXY
- Realice el doble centrado de cada matriz. Vea cómo generalmente se realiza el doble centrado . Sin embargo, en nuestro caso, al hacerlo, no cuadre las distancias inicialmente y no divida por al final. Las medias de fila, columna y media general de los elementos se vuelven cero.- 2
- Multiplique las dos matrices resultantes por elementos y calcule la suma; o de manera equivalente, desenvuelva las matrices en dos vectores de columna y calcule su producto cruzado sumado.
- Normal, dividiendo por el número de elementos,
N^2
.
- Toma raíz cuadrada. El resultado es la covarianza distancia entre y Y .XY
- Las desviaciones de distancia son las covarianzas de distancia de , de Y con sí mismos, usted también las calcula, puntos 3-4-5.XY
- La correlación de distancia se obtiene de los tres números de manera análoga a cómo se obtiene la correlación de Pearson a partir de la covarianza habitual y el par de varianzas: divida la covarianza por la raíz cuadrada del producto de dos varianzas.
La covarianza de distancia (y correlación) no es la covarianza (o correlación) entre las distancias mismas. Es la covarianza (correlación) entre los productos escalares especiales (productos de puntos) de lo que se componen las matrices de "doble centrado".
En el espacio euclídeo, un producto escalar es la semejanza unívocamente unida con la distancia correspondiente. Si tiene dos puntos (vectores), puede expresar su cercanía como producto escalar en lugar de su distancia sin perder información.
Sin embargo, para calcular un producto escalar, debe referirse al punto de origen del espacio (los vectores provienen del origen). Generalmente, uno puede colocar el origen donde le gusta, pero a menudo y conveniente es colocarlo en el centro geométrico de la nube de puntos, la media. Debido a que la media pertenece al mismo espacio que el que abarca la nube, la dimensionalidad no aumentaría.
Ahora, el doble centrado habitual de la matriz de distancia (entre los puntos de una nube) es la operación de convertir las distancias a los productos escalares mientras se coloca el origen en ese centro geométrico. Al hacerlo, la "red" de distancias se reemplaza de manera equivalente por la "explosión" de vectores, de longitudes específicas y ángulos por pares, desde el origen:
[La constelación en mi imagen de ejemplo es plana, lo que revela que la "variable", digamos que era , habiendo generado que era bidimensional. Cuando X es una variable de una sola columna, todos los puntos se encuentran en una línea, por supuesto.]XX
Solo un poco formalmente sobre la operación de doble centrado. Deje tener n points x p dimensions
datos (en el caso univariante ). Sea D una matriz de distancias euclidianas entre los puntos. Deje C ser X con sus columnas centradas. Entonces S = D 2 doble centrado es igual a C C ' , los productos escalares entre filas después de que la nube de puntos fue centrada. La propiedad principal del doble centrado es que 1Xp=1
Dn x n
n
CXS=double-centered D2CC′, y esta suma es igual a la suma negada deloffelementos -diagonal deS.12n∑D2=trace(S)=trace(C′C)S
Regresar a la correlación de distancia. ¿Qué estamos haciendo cuando calculamos la covarianza de distancia? Hemos convertido ambas redes de distancias en sus correspondientes grupos de vectores. Y luego calculamos la covarianza (y posteriormente la correlación) entre los valores correspondientes de los dos grupos: cada valor de producto escalar (valor de distancia anterior) de una configuración se multiplica por su correspondiente de la otra configuración. Esto se puede ver como (como se dijo en el punto 3) que calcula la covarianza habitual entre dos variables, después de vectorizar las dos matrices en esas "variables".
Por lo tanto, estamos covariando los dos conjuntos de similitudes (los productos escalares, que son las distancias convertidas). Cualquier tipo de covarianza es el producto cruzado de los momentos: hay que calcular esos momentos, las desviaciones de la media, primero, y el doble centrado fue ese cálculo. Esta es la respuesta a su pregunta: una covarianza debe basarse en momentos, pero las distancias no son momentos.
La toma adicional de la raíz cuadrada después (punto 5) parece lógica porque en nuestro caso el momento ya era en sí mismo una especie de covarianza (un producto escalar y una covarianza son competidores estructuralmente), por lo que surgió una especie de covarianzas multiplicadas dos veces. Por lo tanto, para descender de nuevo al nivel de los valores de los datos originales (y para poder calcular el valor de correlación), se debe extraer la raíz después.
Una nota importante finalmente debería irse. Si estuviéramos haciendo doble centrado en su forma clásica, es decir, después de cuadrar las distancias euclidianas, entonces terminaríamos con la covarianza de distancia que no es verdadera covarianza de distancia y no es útil. Aparecerá degenerado en una cantidad exactamente relacionada con la covarianza habitual (y la correlación de distancia será una función de la correlación lineal de Pearson). Lo que hace que la covarianza / correlación de distancia sea única y capaz de medir no una asociación lineal sino una forma genérica de dependencia , de modo que dCov = 0 si y solo si las variables son independientes, es la falta de cuadrar las distancias al realizar el doble centrado (ver punto 2). En realidad, cualquier potencia de las distancias en el rango haría, sin embargo, la forma estándar es hacerlo en el poder 1 . Por qué este poder y no el poder 2 facilita el coeficiente para convertirse en la medida de la interdependencia no lineal es un asunto matemático bastante complicado (para mí) relacionado con lasfunciones característicasde las distribuciones, y me gustaría escuchar a alguien más educado para explicar aquí la mecánica de la distancia. covarianza / correlación con palabras posiblemente simples (una vezintenté, sin éxito).(0,2)12
Creo que ambas preguntas están profundamente vinculadas. Mientras que las diagonales originales en la matriz de distancia son 0, lo que se usa para la covarianza (que determina el numerador de la correlación) son los valores doblemente centrados de las distancias, lo que, para un vector con cualquier variación, significa que las diagonales serán negativo.
Así que pasemos a un caso independiente simple y veamos si eso nos da una idea de por qué la correlación es 0 cuando las dos variables son independientes.
(Como señala ttnphns, por sí solo esto no es suficiente, ya que el poder también importa. Podemos hacer el mismo doble centrado, pero si los sumamos en cuadratura perderemos la propiedad if y only if).
fuente