¿Cómo puede la suma de dos variables explicar más varianza que las variables individuales?

13

Estoy obteniendo algunos resultados desconcertantes para la correlación de una suma con una tercera variable cuando los dos predictores están correlacionados negativamente. ¿Qué está causando estos resultados desconcertantes?

Ejemplo 1: correlación entre la suma de dos variables y una tercera variable

Considere la fórmula 16.23 en la página 427 del texto de Guildford de 1965, que se muestra a continuación.

Hallazgo desconcertante: si ambas variables se correlacionan .2 con la tercera variable y se correlacionan -.7 entre sí, la fórmula da como resultado un valor de .52. ¿Cómo puede la correlación del total con la tercera variable ser .52 si las dos variables se correlacionan solo .2 con la tercera variable?

Ejemplo 2: ¿Cuál es la correlación múltiple entre dos variables y una tercera variable?

Considere la fórmula 16.1 en la página 404 del texto de Guildford de 1965 (que se muestra a continuación).

Hallazgo desconcertante: misma situación. Si ambas variables se correlacionan .2 con la tercera variable y se correlacionan -.7 entre sí, la fórmula da como resultado un valor de .52. ¿Cómo puede la correlación del total con la tercera variable ser .52 si las dos variables se correlacionan solo .2 con la tercera variable?

Intenté una pequeña simulación rápida de Monte Carlo y confirma los resultados de las fórmulas de Guilford.

Pero si los dos predictores predicen cada uno el 4% de la varianza de la tercera variable, ¿cómo puede una suma de ellos predecir 1/4 de la varianza?

correlación de la suma de dos variables con una tercera variable correlación múltiple de dos variables con una tercera variable

Fuente: Estadísticas Fundamentales en Psicología y Educación, 4a ed., 1965.

ACLARACIÓN

La situación con la que estoy lidiando implica predecir el desempeño futuro de personas individuales en función de medir sus habilidades ahora.

Los dos diagramas de Venn a continuación muestran mi comprensión de la situación y están destinados a aclarar mi perplejidad.

Este diagrama de Venn (Fig. 1) refleja el orden cero r = .2 entre x1 y C. En mi campo hay muchas variables predictoras que predicen modestamente un criterio.

Figura 1

Este diagrama de Venn (Fig. 2) refleja dos predictores de este tipo, x1 y x2, cada uno de los cuales predice C en r = .2 y los dos predictores correlacionan negativamente, r = -. 7.

Figura 2

No puedo imaginar una relación entre los dos predictores r = .2 que los unirían para predecir el 25% de la varianza de C.

Busco ayuda para comprender la relación entre x1, x2 y C.

Si (como lo sugirieron algunos en respuesta a mi pregunta) x2 actúa como una variable supresora para x1, ¿qué área del segundo diagrama de Venn se está suprimiendo?

Si un ejemplo concreto fuera útil, podemos considerar que x1 y x2 son dos habilidades humanas y que C es un promedio de 4 años en la universidad, 4 años después.

Tengo problemas para imaginar cómo una variable supresora podría hacer que la varianza explicada al 8% de los dos r = .2 r de orden cero se agrande y explique el 25% de la varianza de C. Un ejemplo concreto sería una respuesta muy útil.

Joel W.
fuente
Hay una regla general en las estadísticas de que la varianza de la suma de un conjunto de variables independientes es igual a la suma de sus varianzas.
Mike Hunter
@DJohnson. ¿Cómo se relaciona su comentario con la pregunta formulada?
Joel W.
Lo siento, no entiendo la pregunta. Para mí, es obvio cómo se relaciona. Además, es un comentario que no es elegible para la recompensa ni requiere una elaboración más profunda.
Mike Hunter
1
@DJohnson. ¿Cómo se relaciona su comentario con la pregunta formulada? Para mí, NO es obvio cómo se relaciona.
Joel W.
2
Su pregunta sobre el significado de N vistas podría obtener una mejor respuesta en el sitio Meta CV.
mdewey

Respuestas:

3

Esto puede suceder cuando los dos predictores contienen un gran factor de molestia, pero con signo opuesto, por lo que cuando los sumas, la molestia se cancela y obtienes algo mucho más cercano a la tercera variable.

Vamos a ilustrar con un ejemplo aún más extremo. Suponga que son variables aleatorias normales estándar independientes. Ahora dejaX,YN(0,1)

A=X

B=X+0.00001Y

Digamos que es tu tercera variable, A , B son tus dos predictores y X es una variable latente de la que no sabes nada. La correlación de A con Y es 0, y la correlación de B con Y es muy pequeña, cercana a 0.00001. * Pero la correlación de A + B con Y es 1.YA,BXA+BY

* Hay una pequeña corrección para que la desviación estándar de B sea un poco más de 1.

Pablo
fuente
¿Este tipo de situación surge alguna vez en las ciencias sociales?
Joel W.
1
En la jerga de las ciencias sociales, esto es básicamente un efecto fuerte que confunde un efecto débil de una manera particular. No soy un experto en ciencias sociales, pero no puedo imaginar que sea difícil encontrar un ejemplo de eso.
Paul
¿Podría tener algún ejemplo de otras ciencias que no sean las ciencias físicas?
Joel W.
¿Se puede mostrar la relación que describe en un diagrama de Venn?
Joel W.
Personalmente, no encontraría un diagrama de Venn útil aquí, pero si debe hacerlo, dibujaría B como un rectángulo, luego lo dividiría en dos sub-rectángulos, uno grande y gordo A y uno pequeño y delgado Y. Sumar A y B es cancelando la gran parte A y dejando la pequeña parte Y.
Paul
10

Puede ser útil concebir las tres variables como combinaciones lineales de otras variables no correlacionadas. Para mejorar nuestro conocimiento, podemos representarlos geométricamente, trabajar con ellos algebraicamente y proporcionar descripciones estadísticas a nuestro antojo.

Consideremos, entonces, tres variables de correlación unitaria de media cero sin correlación X , , y Z . De estos construyen lo siguiente:YZ

U=X,V=(7X+51Y)/10;W=(3X+17Y+55Z)/75.

Explicación Geométrica

El siguiente gráfico trata sobre todo lo que necesita para comprender las relaciones entre estas variables.

Figure

Este diagrama pseudo-3D muestra , V , W y U + V en el sistema de coordenadas X , Y , Z. Los ángulos entre los vectores reflejan sus correlaciones (los coeficientes de correlación son los cosenos de los ángulos). La gran correlación negativa entre U y V se refleja en el ángulo obtuso entre ellos. Las pequeñas correlaciones positivas de U y V con W se reflejan en su casi perpendicularidad. Sin embargo, la suma de U y V cae directamente debajo de WUVWU+VX,Y,ZUVUVWUVW, formando un ángulo agudo (alrededor de 45 grados): existe una correlación positiva inesperadamente alta.


Cálculos algebraicos

Para aquellos que desean más rigor, aquí está el álgebra para respaldar la geometría en el gráfico.

Todas esas raíces cuadradas están ahí para hacer que , V y W también tengan variaciones unitarias: eso facilita el cálculo de sus correlaciones, porque las correlaciones serán iguales a las covarianzas. Por lo tantoUVW

Cor(U,V)=Cov(U,V)=E(UV)=E(51XY7X2)/10=7/10=0.7

porque e YXY no están correlacionados. Similar,

Cor(U,W)=3/75=1/5=0.2

y

Cor(V,W)=(73+1517)/(1075)=1/5=0.2.

Finalmente,

Cor(U+V,W)=Cov(U+V,W)Var(U+V)Var(W)=1/5+1/5Var(U)+Var(V)+2Cov(U,V)=2/51+12(7/10)=2/53/50.5164.

En consecuencia, estas tres variables tienen las correlaciones deseadas.


Explicacion Estadistica

Ahora podemos ver por qué todo funciona como lo hace:

  • y V tienen una fuerte correlación negativa de - 7 / 10 porque V es proporcional a la negativa de U más un poco de "ruido" en la forma de un pequeño múltiplo de Y .UV7/10VUY

  • y W tienen correlación positiva débil de 1 / 5 porque W incluye un pequeño múltiplo de U más una gran cantidad de ruido en forma de múltiplos de Y y Z .UW1/5WUYZ

  • y W tienen correlación positiva débil de 1 / 5 porque W (cuando se multiplica porVW1/5W , que no cambiará ninguna correlación) es la suma de tres cosas:75

    • , que se correlaciona positivamente conV;17YV
    • , cuyacorrelaciónnegativaconV3XV reduce la correlación general;
    • y un múltiplo de que introduce mucho ruido.Z
  • Sin embargo, se correlaciona bien positivamente conW, ya que es un múltiplo de esa parte deWque no incluyeZ.U+V=(3X+51Y)/10=3/100(3X+17Y)WWZ

whuber
fuente
¿Hay alguna manera de mostrar esto en un diagrama de Venn? A pesar de las matemáticas, todavía no veo la lógica de la suma de dos variables que explican el 25 +% de la varianza de una tercera variable cuando cada una de las dos variables que entran en la suma predicen, pero el 4% de la varianza de esa tercera variable . ¿Cómo puede una varianza explicada del 8% convertirse en una varianza explicada del 25% simplemente agregando las dos variables?
Joel W.
Además, ¿hay aplicaciones prácticas de este extraño fenómeno?
Joel W.
Si un diagrama de Venn no es apropiado para representar la varianza explicada, ¿puede decirme por qué es inapropiado?
Joel W.
@JoelW. La buena respuesta aquí toca por qué los diagramas de Venn no están a la altura de la tarea de ilustrar este fenómeno (hacia el final de la respuesta): stats.stackexchange.com/a/73876/5829
Jake Westfall
Joel, los Cohen usaron un diagrama tipo Venn que llamaron "Ballantine" para analizar las variaciones. Ver ww2.amstat.org/publications/jse/v10n1/kennedy.html por ejemplo. En cuanto a las aplicaciones prácticas, deberías hacerte la pregunta opuesta: ¿qué aplicaciones de varianza y descomposiciones de varianza no son prácticas?
whuber
5

Otro ejemplo simple:

  • Deje zN(0,1)
  • Sea x1N(0,1)
  • x2=zx1z=x1+x2

Luego:

  • Corr(z,x1)=0
  • Corr(z,x2).7
  • Corr(z,x1+x2)=1

Geometrically, what's going on is like in WHuber's graphic. Conceptually, it might look something like this: enter image description here

(At some point in your math career, it can be enlightening to learn that random variables are vectors, E[XY] is an inner product, and hence correlation is the cosine of the angle between the two random variables.)

x1 and z are uncorrelated, hence they're orthogonal. Let θ denote the angle between two vectors.

  • Corr(z,x1)=cosθzx1=0θz,x1=π2
  • Corr(z,x2)=cosθzx2.7θz,x2=π4
  • Corr(z,x1+x2)=cosθz,x1+x2=1θz,x1+x2=0

To connect to the discussion in the comments Flounderer's answer, think of z as some signal, x1 as some noise, and noisy signal x2 as the sum of signal z and noise x1. Adding x1 to x2 is equivalent to subtracting noise x1 from the noisy signal x2.

Matthew Gunn
fuente
(+1) Nice example!
user795305
Please explain the premises of your answer. After positing z = x1 + x2, why say “then Corr(z,x1)=0”? Are you saying that Corr(z,x1)=0 follows from your first Let statement, or is the correlation of zero an additional assumption? If it is an additional assumption, why does the situation in the original question require that additional assumption?
Joel W.
@JoelW. I'm saying z is a random variable following the standard normal distribution and x1 is an independent random variable that also follows the standard normal distribution. z and x1 are independent, hence their correlation is precisely 0. Then compute zx1 and call that x2.
Matthew Gunn
@MatthewGunn. Your third Let says z=x1+x2. That seems to violate your first two Lets that say that z and x1 are independent.
Joel W.
1
@JoelW. I do not agree because that statement is not true. Seeing z=x1+x2 implies nothing about independence between z and x1.
Matthew Gunn
3

Addressing your comment:

Despite the math, I still do not see the logic of the sum of two variables explaining 25+% of the variance of a third variable when each off the two variables that go into the sum predict but 4% of the variance of that third variable. How can 8% explained variance become 25% explained variance just by adding the two variables?

The issue here seems to be the terminology "variance explained". Like a lot of terms in statistics, this has been chosen to make it sound like it means more than it really does.

Here's a simple numerical example. Suppose some variable Y has the values

y=(6,7,4,8,9,6,6,3,5,10)

and U is a small multiple of Y plus some error R. Let's say the values of R are much larger than the values of Y.

r=(20,80,100,90,50,70,40,30,40,60)

and U=R+0.1Y, so that

u=(19.4,79.3,100.4,90.8,50.9,70.6,40.6,30.3,40.5,61.0)

and suppose another variable V=R+0.1Y so that

v=(20.6,80.7,99.6,89.2,49.1,69.4,39.4,29.7,39.5,59.0)

Then both U and V have very small correlation with Y, but if you add them together then the r's cancel and you get exactly 0.2Y, which is perfectly correlated with Y.

In terms of variance explained, this makes perfect sense. Y explains a very small proportion of the variance in U because most of the variance in U is due to R. Similarly, most of the variance in V is due to R. But Y explains all of the variance in U+V. Here is a plot of each variable:

Plot of each of the variables

However, when you try to use the term "variance explained" in the other direction, it becomes confusing. This is because saying that something "explains" something else is a one-way relationship (with a strong hint of causation). In everyday language, A can explain B without B explaining A. Textbook authors seem to have borrowed the term "explain" to talk about correlation, in the hope that people won't realise that sharing a variance component isn't really the same as "explaining".

Flounderer
fuente
@naught101 has created some figures to illustrate your variables, Flounderer. You might want to see if including them appeals to you.
gung - Reinstate Monica
Sure, edit it however you like. I can't actually view imgur at work but I'm sure it will be fine!
Flounderer
I rejected the suggestion, b/c I didn't see that he had contacted you here. You can approve it by going to the suggested edit queue, though.
gung - Reinstate Monica
The example you provide is interesting, if carefully crafted, but the situation I presented is more general (with the numbers not carefully chosen) and based on 2 variables N(0,1). Even if we change the terminology from "explains" to "shared", the question remains. How can 2 random variables, each with 4% shared variance with a third variable, be combined in terms of a simple sum that, according to the formula, has 25% shared variance with a third variable? Also, if the goal is prediction, are there any real-world practical applications of this strange increase in shared variance?
Joel W.
Well, anywhere in electronics when you have (loud noise + weak signal) + (-loud noise) = weak signal, you would be applying this. For example, noise-cancelling headphones.
Flounderer