¿Por qué este conjunto de datos no tiene covarianza?

8

Entiendo cómo funciona la covarianza es que los datos que están correlacionados deberían tener una covarianza algo alta. Me he encontrado con una situación en la que mis datos parecen correlacionados (como se muestra en el diagrama de dispersión) pero la covarianza es casi cero. ¿Cómo puede la covarianza de los datos ser cero si están correlacionados?

import numpy as np
x1 = np.array([ 0.03551153,  0.01656052,  0.03344669,  0.02551755,  0.02344788,
        0.02904475,  0.03334179,  0.02683399,  0.02966126,  0.03947681,
        0.02537157,  0.03015175,  0.02206443,  0.03590149,  0.03702152,
        0.02697212,  0.03777607,  0.02468797,  0.03489873,  0.02167536])
x2 = np.array([ 0.0372599 ,  0.02398212,  0.03649548,  0.03145494,  0.02925334,
        0.03328783,  0.03638871,  0.03196318,  0.03347346,  0.03874528,
        0.03098697,  0.03357531,  0.02808358,  0.03747998,  0.03804655,
        0.03213286,  0.03827639,  0.02999955,  0.0371424 ,  0.0279254 ])
print np.cov(x1, x2)

array([[  3.95773132e-05,   2.59159589e-05],
       [  2.59159589e-05,   1.72006225e-05]])

python descriptive-statistics covariance kilojulios
fuente

44

Pista: ¿Qué sucede cuando miras la correlación? ¿Cuál es la diferencia entre covarianza y correlación?

aleshing

2

Si está midiendo números que parecen pequeños o muy juntos en una escala particular, las diferencias entre ellos también parecerán pequeñas, y los productos de las diferencias parecerán aún más pequeños. Intente multiplicar todos sus datos por y luego rehacer los cálculos; la covarianza debería ser veces mayor

1000

$1000$

1000000

$1000000$

Henry

14

La magnitud de la covarianza depende de la magnitud de los datos y de qué tan cerca están dispersos esos puntos de datos alrededor de la media de esos datos. Es fácil de ver cuando miras la fórmula:

$cov_{x,y}= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{n-1}$

En su caso, la desviación de los datos x1y x2apunta a la media de x1y x2son:

x1-mean(x1)
 [1]  0.006043341 -0.012907669  0.003978501 -0.003950639 -0.006020309 -0.000423439  0.003873601
 [8] -0.002634199  0.000193071  0.010008621 -0.004096619  0.000683561 -0.007403759  0.006433301
[15]  0.007553331 -0.002496069  0.008307881 -0.004780219  0.005430541 -0.007792829

x2-mean(x2)
 [1]  0.0039622385 -0.0093155415  0.0031978185 -0.0018427215 -0.0040443215 -0.0000098315
 [7]  0.0030910485 -0.0013344815  0.0001757985  0.0054476185 -0.0023106915  0.0002776485
[13] -0.0052140815  0.0041823185  0.0047488885 -0.0011648015  0.0049787285 -0.0032981115
[19]  0.0038447385 -0.0053722615

Ahora, si multiplica esos dos vectores entre sí, obviamente obtendrá números bastante pequeños:

(x1-mean(x1)) * (x2-mean(x2))
 [1] 2.394516e-05 1.202419e-04 1.272252e-05 7.279927e-06 2.434807e-05 4.163041e-09 1.197349e-05
 [8] 3.515290e-06 3.394159e-08 5.452315e-05 9.466023e-06 1.897897e-07 3.860380e-05 2.690611e-05
[15] 3.586993e-05 2.907425e-06 4.136268e-05 1.576570e-05 2.087901e-05 4.186512e-05

Ahora toma la suma y divide por y tienes la covarianza: $n-1$

sum((x1-mean(x1)) * (x2-mean(x2))) / (length(x1)-1)
[1] 2.591596e-05

Esa es la razón por la cual la magnitud de la covarianza no dice mucho sobre la fuerza de cómo x1y x2co-variar. Al estandarizar (o normalizar) la covarianza, es decir, dividirla por el producto de la desviación estándar de x1y x2(muy similar a la covarianza, es decir 2.609127e-05),

$r=\frac{cov_{x,y}}{s_x s_y} = \frac{\sum(x_1-\bar{x})(y_i-\bar{y})}{(n-1) s_x s_y}$

obtienes el coeficiente de correlación alto, de , que confirma lo que puedes ver en tu gráfica. $r=0.99$

Stefan
fuente

7

Hablemos de lo que se puede ver de un vistazo rápido a la trama y algunas comprobaciones de razonabilidad (este es el tipo de cosas que uno puede hacer de manera normal cuando mira los datos, simplemente estar armado con algunos hechos básicos):

$n$ $n-1$

$10^{-4}$

En consecuencia, los valores observados de las variaciones en su salida tienen sentido; Ambos son menos que eso, pero más de una décima parte.

$\frac14$

$0.02$ $(0.02)^2/4=10^{-4}$

De ese análisis muy tosco, nada parece sorprendente.

$0.023$ $0.015$ $8.6\times 10^{-5}$

$2.9\times 10^{-5}$

$2.9\times 10^{-5}$ $2.6\times 10^{-5}$

(¡No es tan malo para un cálculo rápido al comienzo del sobre que comienza con rangos de dos cifras significativas!)

Glen_b -Reinstate a Monica
fuente

¿Por qué este conjunto de datos no tiene covarianza?

Respuestas: