Si X e Y son variables aleatorias y a y b son constantes, entonces
Cov(X+a,Y+b)=E[(X+a−E[X+a])(Y+b−E[Y+b])]=E[(X+a−E[X]−E[a])(Y+b−E[Y]−E[b])]=E[(X+a−E[X]−a)(Y+b−E[Y]−b)]=E[(X−E[X])(Y−E[Y])]=Cov(X,Y).
Centrado está el caso especiala = -E[X]yb = -E[Y], por lo que el centrado no afecta a la covarianza.
Además, dado que la correlación se define como
Corr(X,Y) =Cov(X,Y)Var(X)Var(Y)------------√,
podemos ver que
Corr(X+ a ,Y+ b )=Cov(X+ a ,Y+ b )Var(X+ a )Var(Y+ b )------------------√=Cov(X,Y)Var(X)Var(Y)------------√,
por lo que,en particular, la correlación tampoco se ve afectada por el centrado.
Esa fue la versión de la población de la historia. La versión de muestra es la misma: si usamos
Covˆ( X, Y) = 1norte∑i = 1norte( Xyo- 1norte∑j = 1norteXj) ( Yyo- 1norte∑j = 1norteYj)
como nuestra estimación de covarianza entreXeYpartir de una muestra emparejada( X1, Y1) , … , ( Xnorte, Ynorte), entonces
Covˆ( X+ a , Y+ b )= 1norte∑i = 1norte( Xyo+ a - 1norte∑j = 1norte( Xj+ a ) ) ( Yyo+ b - 1norte∑j = 1norte( Yj+ b ) )= 1norte∑i = 1norte( Xyo+ a - 1norte∑j = 1norteXj- nnortea ) ( Yyo+ b - 1norte∑j = 1norteYj- nnorteb )= 1norte∑i = 1norte( Xyo- 1norte∑j = 1norteXj) ( Yyo- 1norte∑j = 1norteYj)= Covˆ( X, Y)
para cualquierunaysi.
fuente
"en algún lugar" tiende a ser una fuente poco confiable ...
La covarianza / correlación se define con un centrado explícito . Si no centra los datos, entonces no está calculando covarianza / correlación. (Precisamente: correlación de Pearson)
La principal diferencia es si usted se centra en un modelo teórico (por ejemplo, se supone que el valor esperado es exactamente 0) o en los datos (media aritmética). Es fácil ver que la media aritmética producirá una covarianza más pequeña que cualquier centro diferente.
Sin embargo, una covarianza menor no implica una correlación menor, o lo contrario. Supongamos que tenemos datos X = (1,2) e Y = (2,1). Es fácil ver que con el centro aritmético de la media esto producirá una correlación perfectamente negativa, mientras que si sabemos que el proceso de generación produce 0 en promedio, los datos están realmente correlacionados positivamente. Entonces, en este ejemplo, estamos centrando, pero con el valor teórico esperado de 0.
Esto puede surgir fácilmente. Considere que tenemos una matriz de sensores, 11x11, con las celdas numeradas de -5 a +5. En lugar de tomar la media aritmética, tiene sentido usar la media "física" de nuestra matriz de sensores aquí cuando buscamos la correlación de los eventos del sensor (si enumeramos las celdas 0 a 10, usaríamos 5 como media fija, y obtendríamos los mismos resultados exactos, de modo que la opción de indexación desaparezca del análisis, bueno).
fuente