si la covarianza es -150, ¿cuál es el tipo de relación entre dos variables?

8

La covarianza de dos variables se calculó en -150. ¿Qué dicen las estadísticas sobre la relación entre dos variables?

Sameera
fuente
99
Las covarianzas no están libres de unidades, por lo que el valor numérico bruto no transmite significado por sí solo. Aparte del hecho de que es menor que 0, no hay mucho que decir.
Glen_b -Reinstate Monica
99
Mi variable tiene una media de . ¿Es grande o pequeño? 317
whuber

Respuestas:

34

Para agregar a la respuesta de Łukasz Deryło : como él escribe, una covarianza de -150 implica una relación negativa. Si esta es una relación fuerte o débil depende de las variaciones de las variables. A continuación, trazo ejemplos para una relación fuerte (cada variable separada tiene una varianza de 200, por lo que la covarianza es grande, en términos absolutos, en comparación con la varianza), y para una relación débil (cada varianza es 2000, por lo que la covarianza es pequeña , en términos absolutos, en comparación con la varianza).

Relación fuerte, variance <- 200:

Relación fuerte

Relación débil variance <- 2000:

ingrese la descripción de la imagen aquí

Código R:

library(MASS)

nn <- 100
epsilon <- 0.1
variance <- 2000 # weak relationship

opar <- par(mfrow=c(2,2))
    for ( ii in 1:4 ) {
        while ( TRUE ) {
            dataset <- mvrnorm(n=100,mu=c(0,0),Sigma=rbind(c(2000,-150),c(-150,2000)))
            if ( abs(cov(dataset)[1,2]-(-150)) < epsilon ) break
        }   
        plot(dataset,pch=19,xlab="",ylab="",main=paste("Covariance:",cov(dataset)[1,2]))
    }
par(opar)

EDITAR: cuarteto de Anscombe

Como señala Whuber, la covarianza en sí misma no nos dice mucho sobre un conjunto de datos. Para ilustrar, tomaré el cuarteto de Anscombe y lo modificaré ligeramente. Observe cómo los diagramas de dispersión muy diferentes pueden tener la misma covarianza (redondeada) de -150:

Anscombe

anscombe.mod <- anscombe
anscombe.mod[,c("x1","x2","x3","x4")] <- sqrt(150/5.5)*anscombe[,c("x1","x2","x3","x4")]
anscombe.mod[,c("y1","y2","y3","y4")] <- -sqrt(150/5.5)*anscombe[,c("y1","y2","y3","y4")]
opar <- par(mfrow=c(2,2))
    with(anscombe.mod,plot(x1,y1,pch=19,main=paste("Covariance:",round(cov(x1,y1),0))))
    with(anscombe.mod,plot(x2,y2,pch=19,main=paste("Covariance:",round(cov(x2,y2),0))))
    with(anscombe.mod,plot(x3,y3,pch=19,main=paste("Covariance:",round(cov(x3,y3),0))))
    with(anscombe.mod,plot(x4,y4,pch=19,main=paste("Covariance:",round(cov(x4,y4),0))))
par(opar)

EDICIÓN FINAL (¡lo prometo!)

Por último, aquí hay una covarianza de -150 con quizás el más tenue "relación negativa" entre e imaginables:xy

final

xx <- yy <- seq(0,100,by=10)
yy[9] <- -336.7
plot(xx,yy,pch=19,main=paste("Covariance:",cov(xx,yy)))
Stephan Kolassa
fuente
Es bueno ver las parcelas. Dos sugerencias: (1) muestran una gama más amplia de posibles comportamientos. Dado que la covarianza no nos dice absolutamente nada sobre la relación general, puede ilustrar eso al incluir un valor atípico influyente para ilustrar cómo la relación puede ser fuerte y consistentemente positiva , aunque la covarianza puede ser negativa. (2) Sea más eficiente: después de generar datos de muestra, simplemente vuelva a escalarlos para lograr la covarianza deseada. Esto evita la generación repetida de datos hasta que se alcanza un umbral; asegura un valor exacto ; y muestra cuán poco significado tiene "-150".
whuber
@whuber: Seré honesto: era demasiado tonto para descubrir cómo cambiar un conjunto de datos determinado para lograr una covarianza determinada. Buscar en Google y buscar en el CV no ayudó, así que al final fui con el muestreo de rechazo de fuerza bruta. Estoy un poco frustrado conmigo mismo; Cualquier sugerencia sería apreciada.
Stephan Kolassa
Solo algo que agregar es, ¿has visto Datasaurus Dozen? Es una versión aún más exagerada del cuarteto de Anscombe publicado a principios de este año. Puede encontrar la publicación original en línea aquí
Guilherme Marthe
1
Yo, por mi parte, pienso en ti como lo opuesto a "tonto" y me complacería indicar un método. Puede escalar una o ambas e . Para hacerlo simétricamente, genere datos . Deje que su covarianza calculada sea . Defina la "escala" comoxyx,yvs=|150/v| y el "signo" u ser 1 cuando 150/v<0, 1de otra manera. Los datos(sx,usy) (que preservará el orden de la x y tal vez revertir el y) tienen covarianza 150 porque
Cov(sx,usy)=s(us)Cov(x,y)=us2v=±u(150v)v=150.
(+1 para las ediciones, por cierto)
whuber
@Guilherme En una respuesta en stats.stackexchange.com/a/152034/919 fui más allá de todo eso al proporcionar un software que producirá tales ejemplos a voluntad simplemente especificando las propiedades que desea que tengan. Como ejemplo, utilicé el código para reproducir el Cuarteto de Anscombe.
whuber
7

Solo te dice que la relación es negativa. Esto significa que los valores bajos de una variable tienden a ocurrir junto con los valores altos de la otra.

Es difícil saber si esta covarianza es grande o pequeña (si su relación es fuerte o débil) porque cov(X,Y) rangos desde sd(X)sd(Y) a sd(X)sd(Y). Entonces depende de la escala de sus variables.

Para juzgar si esta relación es fuerte o no, debe convertir la covarianza en correlación (dividirla por sd(X)sd(Y)) Esto va desde1 a 1 y se pueden encontrar muchas pautas diferentes para la interpretación en la Web y los libros de texto.

También puede ejecutar la prueba de importancia de la correlación.

Łukasz Deryło
fuente
2
Esta interpretación, aunque común, confunde medios con tendencias generales. La covarianza podría ser fácilmente negativa incluso cuando la gran mayoría de los datos siguen una relación positiva.
whuber