Entendiendo que intuitivamente

8

Acabo de ver esta pregunta y la maravillosa respuesta aceptada en este foro. Luego me activaron para tratar de comprender intuitivamente por qué la división de está normalizando la covarianza:SxSy

COV(X,Y)SxSy[1,1]

Creo que será útil si entiendo por qué normaliza para ser . Por supuesto, entiendo que, por definición, son iguales. Pero mi pregunta es básicamente esta: usando la terminología de la respuesta aceptada, ¿por qué la suma total de rojo en la gráfica es exactamente (más exacto, hasta donde yo entiendo, es decir la suma de los rectángulos divididos por debe ser ). Quiero decir, si tomamos una muestra de observaciones, que tenemos rectángulos, mientras usamos la definición, tenemos que encontrar la media de solo valores.SxSxCOV(X,X)1SxSx=VAR(X)n2VAR(X)104510

Delaware
fuente

Respuestas:

8

Esta publicación presenta un poderoso método de razonamiento que evita una gran cantidad de álgebra y cálculo. Para aquellos familiarizados con este método, el trabajo es tan automático y natural que la respuesta inicial de uno a una pregunta como esta es "¡es obvio!" Pero tal vez no sea tan obvio hasta que hayas visto el método. Por lo tanto, se explican todos los detalles, paso a paso.

Antecedentes

Hay varias fórmulas para la varianza de datos (con media ), incluyendox=x1,x2,,xnx¯=(x1++xn)/n

(1)Var(x)=1ni=1n(xix¯)2=1n(i=1nxi2)x¯2.

Esto determina la covarianza de los datos emparejados través de(x1,y1),,(xn,yn)

Cov(x,y)=14(Var(x+y)Var(xy)).

La fórmula implícita en la publicación referenciada de covarianza con crayones es

(2)C(x,y)=i=1n1j=i+1n(xjxi)(yjyi)=12i,j=1n(xjxi)(yjyi).

Esa publicación afirma que es proporcional a la covarianza. La constante de proporcionalidad podría (y varía) con . Por lo tanto, cuando una implicación de esta afirmación es queCc(n)nx=y

C(x,x)=c(n)Var(x).

Análisis

Aunque esto podría demostrarse con álgebra de fuerza bruta, hay una mejor manera: explotemos las propiedades fundamentales de la covarianza. ¿Qué propiedades serían esas? Me gustaría sugerir que los siguientes son básicos:

  1. Lugar de independencia. Es decir, para cualquier número . (La expresión refiere al conjunto de datos .)

    Cov(x,y)=Cov(xa,y)
    axax1a,x2a,,xna
  2. Multilinealidad. Esto implica para cualquier número . (La expresión refiere al conjunto de datos .)

    Cov(λx,y)=λCov(x,y)
    λλxλx1,λx2,,λxn
  3. Simetría. La covarianza de y es la covarianza de y :xyyx

    Cov(x,y)=Cov(y,x).
  4. Invarianza bajo permutaciones. La covarianza no cambia cuando volvemos a indexar . Formalmente, para cualquier permutación . (Expresiones como representan reordenar el acuerdo con , de modo que )(xi,yi)

    Cov(x,y)=Cov(xσ,yσ)
    σSnxσxiσxσ=xσ(1),xσ(2),,xσ(n).

Todas estas propiedades obviamente son válidas tanto para como para al inspeccionar las formas de las expresiones y . El único que podría necesitar alguna explicación es la independencia de la ubicación. Sin embargo, un cambio constante de valores de no cambia los residuos ni las diferencias:VarC(1)(2)xi

xix¯=(xia)xa¯

y

xjxi=(xja)(xia).

En consecuencia, es obvio que la primera versión de y son independientes de la ubicación.(1)(2)


Solución

Aquí, entonces, está el razonamiento. Como es simétrico y multilineal, es una forma cuadrática completamente determinada por los coeficientes :Ccij=cji

C(x,y)=i,j=1ncijxiyj.

Debido a que es invariante a la permutación, para cualquier índice para el cual e ; también, para todos los índices e . Por lo tanto, está determinado por solo dos números, digamos y . Finalmente, uno de estos números determina los otros dos en virtud de la invariancia de ubicación: esa condición significacij=ciji,j,i,jijijcii=ciiiiCc11c12

0=C(0,0)=location-invarianceC(1,0)=symmetryC(0,1)=location-invarianceC(1,1)

(donde " " y " " se refieren a -vectores constantes con estos valores). Pero01n

0=C(1,1)=i,jncij=nc11+(n2n)c12,
determinando cada de y en términos del otro.c11c12

Esto ya demuestra el punto principal: debe ser proporcional a , ya que cada uno está determinado por cualquiera de sus coeficientes. Para encontrar la constante de proporcionalidad, inspeccione las dos fórmulas y , buscando todas las apariencias de : puede leer el valor asociado de de ellas. De la segunda versión de , el coeficiente de claramente es . Desde la primera versión de , con , el coeficiente de claramente esCCov(1)(2)x12c11(1)x121/n(1/n)2(2)y=xx12n1. (Geométricamente, cada punto en el diagrama de dispersión de está emparejado con otros, de donde el cuadrado de su coordenada aparecerá veces.) Por lo tanto(x,x)n1n1

c(n)=n11/n(1/n)2=n2,

QED . Este fue el único cálculo requerido para demostrar

Cov(x,y)=1n2C(x,y)=1n2i=1n1j=i+1n(xjxi)(yjyi).
whuber
fuente