Tomado de Estadísticas prácticas para la investigación médica donde Douglas Altman escribe en la página 285:
... para cualesquiera dos cantidades, X e Y, X se correlacionará con XY. De hecho, incluso si X e Y son muestras de números aleatorios, esperaríamos que la correlación de X e XY sea 0.7
Intenté esto en R y parece ser el caso:
x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)
xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)
¿Porqué es eso? ¿Cuál es la teoría detrás de esto?
correlation
random-variable
intuition
no hay stock
fuente
fuente
Respuestas:
Si e Y son variables aleatorias no correlacionadas con igual varianza σ 2 , entonces tenemos esa var ( X - Y )X Y σ2
En consecuencia,ρX,X-Y=cov(X,X-Y)
fuente
cov(X,X)-cov(X,Y)=s^2
Una explicación geométrica-estadística.
fuente
Creo que aquí también hay una intuición simple basada en la simetría. Como X e Y tienen las mismas distribuciones y tienen una covarianza de 0, la relación de X ± Y con X debería "explicar" la mitad de la variación en X ± Y; la otra mitad debería explicarse por Y. Entonces, R 2 debería ser 1/2, lo que significa que R es 1 / √2 ≈ 0.707.
fuente
Aquí hay una manera simple de pensar por qué hay una correlación aquí.
Imagine lo que sucede cuando resta dos distribuciones. Si el valor de x es bajo, entonces, en promedio,
x - y
será un valor más bajo que si el valor de x es alto. A medida que x aumenta, entoncesx - y
aumenta, en promedio, y por lo tanto, una correlación positiva.fuente
x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)
$y
completo. :-)