¿Por qué el coeficiente de correlación entre las variables aleatorias X y XY tiende a ser 0.7

49

Tomado de Estadísticas prácticas para la investigación médica donde Douglas Altman escribe en la página 285:

... para cualesquiera dos cantidades, X e Y, X se correlacionará con XY. De hecho, incluso si X e Y son muestras de números aleatorios, esperaríamos que la correlación de X e XY sea 0.7

Intenté esto en R y parece ser el caso:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

¿Porqué es eso? ¿Cuál es la teoría detrás de esto?

no hay stock
fuente
¿Para qué parte quieres una explicación? ¿Desea la ecuación simplificada para la correlación que resulta debido a la correlación conocida entre x e y, y la covarianza entre x y xy? ¿O simplemente quieres saber por qué hay alguna covarianza aquí?
John
¿Es esto cierto para cualquier e Y ? Supongamos que X y Z no están correlacionados y dejar que Y = X - Z . Entonces sospechoso X no se correlaciona con X - Y . XYXZY=XZXXY
Henry

Respuestas:

69

Si e Y son variables aleatorias no correlacionadas con igual varianza σ 2 , entonces tenemos esa var ( X - Y )XYσ2 En consecuencia,ρX,X-Y=cov(X,X-Y)

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
Entonces, cuando encuentre n i = 1 (xi- ˉ x )((xi-yi)-( ˉ x - ˉ y ))
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
la correlación muestral dexyx-ypara un conjunto de datos grande{(xi,yi):1in
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy extraído de una población con estas propiedades, que incluye "números aleatorios" como un caso especial, el resultado tiende a estar cerca del valor de correlación de población 1{(xi,yi):1in}120.7071
Dilip Sarwate
fuente
¿Podría explicar un poco más cómocov(X,X)-cov(X,Y)=s^2
Nostock
55
cov (X, X) es otro nombre para var (X). cov (X, Y) = 0 ya que se supone que X e Y no están correlacionados (por lo tanto, covarianza = 0).
Dilip Sarwate
58

Una explicación geométrica-estadística.

n 2 XYXY

XYr=0

XY

XYX+Y

XYX+Y2σ2XXYX+Y0.707...

ingrese la descripción de la imagen aquí

ttnphns
fuente
44
Un gran +1 para compartir este enfoque.
whuber
(+1) ¡Esa es una forma muy clara de presentar esto!
Matt Krause
Ahh ... fotos! (+1) Bien hecho. :-)
cardenal
11

Creo que aquí también hay una intuición simple basada en la simetría. Como X e Y tienen las mismas distribuciones y tienen una covarianza de 0, la relación de X ± Y con X debería "explicar" la mitad de la variación en X ± Y; la otra mitad debería explicarse por Y. Entonces, R 2 debería ser 1/2, lo que significa que R es 1 / √2 ≈ 0.707.

denn333
fuente
r2=12r1/21/2
No, eso realmente no es más estándar. (Si necesita evidencia, busque la respuesta principal. Las 38 personas que ya votaron por ella no objetaron con la misma notación).
denn333
r2=1/2r=1/2
3

Aquí hay una manera simple de pensar por qué hay una correlación aquí.

Imagine lo que sucede cuando resta dos distribuciones. Si el valor de x es bajo, entonces, en promedio, x - yserá un valor más bajo que si el valor de x es alto. A medida que x aumenta, entonces x - yaumenta, en promedio, y por lo tanto, una correlación positiva.

John
fuente
44
No creo que su afirmación sea siempre cierta "Siempre habrá una correlación entre dos distribuciones aleatorias cuando haya una relación matemática". por ejemplo x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
curious_cat
44
@curious_cat: O, tal vez para ser aún más evocador, descartar por ycompleto. :-)
cardenal