¿Es posible que 3 vectores tengan todas las correlaciones negativas por pares?

16

Dados los tres vectores a , b y c , ¿es posible que las correlaciones entre a y b , a y c , y b y c sean todas negativas? Es decir, ¿es esto posible?

corr(a,b)<0corr(a,c)<0corr(b,c)<0
Antti A
fuente
3
Las correlaciones negativas significan, geométricamente, que los vectores centrados mutuamente forman ángulos obtusos. No debería tener problemas para dibujar una configuración de tres vectores en el plano que tengan esta propiedad.
whuber
No pueden estar completamente correlacionados negativamente ( ), pero en general puede haber alguna correlación negativa, nuevamente límites establecidos por las otras correlaciones. ρ=1
karakfa
2
@whuber Tu comentario parece contradecir la respuesta de Heikki Pulkkinen, que afirma que es imposible para los vectores en un avión. Si lo respaldas, debes convertir tu comentario en una respuesta.
RM
2
@RM No hay contradicción entre whuber y Heikki. Esta pregunta se refiere a la matriz de datos de tamaño n × 3 . Normalmente hablaríamos de n puntos de datos en 3 dimensiones, pero esta Q está hablando de tres "vectores" en n dimensiones. Heikki dice que todas las correlaciones negativas no pueden suceder si n = 2 (de hecho, dos puntos después del centrado siempre están perfectamente correlacionados, por lo que las correlaciones deben ser ± 1 y no pueden ser todas - 1 ). Whuber dice que 3 vectores en n dimensiones pueden estar efectivamente en un subespacio bidimensional (es decir, XXn×3nnn=2±11nX es el rango 2) y sugiere imaginar un logotipo de Mercedes.
ameba dice Reinstate Monica
1
Relacionado: obligado para la correlación de tres variables aleatorias . (cc, @amoeba)
gung - Restablece a Monica

Respuestas:

19

Es posible si el tamaño del vector es 3 o mayor. Por ejemplo

a=(1,1,1)b=(1,9,3)c=(2,3,1)

Las correlaciones son

cor(a,b)=0.80...cor(a,c)=0.27...cor(b,c)=0.34...

Podemos demostrar que para vectores de tamaño 2 esto no es posible:

cor(a,b)<02(iaibi)(iai)(ibi)<02(a1b1+a2b2)(a1+a2)(b1b2)<02(a1b1+a2b2)(a1+a2)(b1b2)<02(a1b1+a2b2)a1b1+a1b2+a2b1+a2b2<0a1b1+a2b2a1b2+a2b1<0a1(b1b2)+a2(b2b1)<0(a1a2)(b1b2)<0

The formula makes sense: if a1 is larger than a2, b1 has to be larger than b1 to make the correlation negative.

Similarly for correlations between (a,c) and (b,c) we get

(a1a2)(c1c2)<0(b1b2)(c1c2)<0

Clearly, all of these three formulas can not hold in the same time.

Heikki Pulkkinen
fuente
3
Another example of something unexpected that only happens in dimension three or higher.
nth
1
With vectors of size 2, correlations are usually ±1 (straight line through two points), and you cannot have three correlations of 1 with three vectors of any size
Henry
9

Yes, they can.

Suppose you have a multivariate normal distribution XR3,XN(0,Σ). The only restriction on Σ is that it has to be positive semi-definite.

So take the following example Σ=(10.20.20.210.20.20.21)

Its eigenvalues are all positive (1.2, 1.2, 0.6), and you can create vectors with negative correlation.

Kozolovska
fuente
7

let's start with a correlation matrix for 3 variables

Σ=(1pqp1rqr1)

non-negative definiteness creates constraints for pairwise correlations p,q,r which can be written as

pqrp2+q2+r212

For example, if p=q=1, the values of r is restricted by 2rr2+1, which forces r=1. On the other hand if p=q=12, r can be within 2±34 range.

Answering the interesting follow up question by @amoeba: "what is the lowest possible correlation that all three pairs can simultaneously have?"

Let p=q=r=x<0, Find the smallest root of 2x33x2+1, which will give you 12. Perhaps not surprising for some.

A stronger argument can be made if one of the correlations, say r=1. From the same equation 2pqp2+q2, we can deduce that p=q. Therefore if two correlations are 1, third one should be 1.

karakfa
fuente
2

A simple R function to explore this:

f <- function(n,trials = 10000){
  count <- 0
  for(i in 1:trials){
    a <- runif(n)
    b <- runif(n)
    c <- runif(n)
    if(cor(a,b) < 0 & cor(a,c) < 0 & cor(b,c) < 0){
      count <- count + 1
    }
  }
  count/trials
}

As a function of n, f(n) starts at 0, becomes nonzero at n = 3 (with typical values around 0.06), then increases to around 0.11 by n = 15, after which it seems to stabilize:

enter image description here So, not only is it possible to have all three correlations negative, it doesn't seem to be terribly uncommon (at least for uniform distributions).

John Coleman
fuente