¿Importa la correlación entre variables en una interacción?

8

Supongamos que se ajusta a un modelo . ¿Existen implicaciones prácticas para la estimación del efecto de interacción si y x_2 están correlacionadas?y=x1+x2+x1×x2x1x2

Entiendo que podría haber problemas de colinealidad si x1 y x2 están muy correlacionadas, pero eso no debería afectar el término de interacción, ¿verdad?

hlinee
fuente
1
Parece que está buscando información sobre la correlación entre x1x2 y x1 cuando x1 y x2 están correlacionadas. Una forma de tener una idea de lo que se puede deducir es notar que aunque agregar una constante (digamos c ) a cualquiera de los xi no cambiará su correlación, cambiará x1x2 en una constante más (x1x2+cx1+cx2).Esos dos últimos términos muestran que c tiene un profundo efecto en la correlación entre x1x2 y xi.Si esto no sugiere inmediatamente una respuesta a cualquiera que sea su pregunta, considere dibujar algunos diagramas de dispersión.
whuber
@whuber Tengo problemas para seguir tu lógica. ¿Hay alguna explicación más explícita paso a paso a la que puedas vincular? Traté de escribirlo con la fórmula de correlación, pero no
pude
@whuber Además, con respecto a mi pregunta original, creo que algún contexto podría ayudar, ya que estoy de acuerdo en que es bastante vago. Lo que sucedió fue que presenté mis resultados buscando un efecto de interacción a un estadístico con el que trabajé y lo primero que me preguntó fue si los dos predictores en mi interacción estaban correlacionados. No había examinado la correlación y le pregunté por qué importaba. No pudo explicar por qué, pero dijo que sí importaba, de ahí mi pregunta.
hlinee

Respuestas:

9

Hay una razón por la cual su consultor estadístico no podría explicar por qué la introducción de una interacción en un modelo lineal podría afectar negativamente la estructura de correlación: depende de las circunstancias y no es generalmente cierto que exista un efecto adverso. Simplemente mire los conjuntos de datos que se muestran en las matrices de diagrama de dispersión a continuación para ver todas las diferentes formas en que dos variables podrían estar relacionadas con sus productos.

El resto de esta publicación explica cómo se produjeron esas cifras y podría proporcionar más información sobre la situación.


Primero, obvio: escribiendo tiene una regresión múltiple que involucra las tres variables Si hay o no problemas de colinealidad depende de las relaciones lineales entre Eso es universal.X3=X1X2,X1,X2,X3.Xyo.

Lo especial de este problema es la relación entre y el otroa saber, que Por lo tanto, si alguien le ha aconsejado que tenga cuidado, debe deberse a la expectativa de que esta relación multiplicativa matemáticamente conlleva algún tipo de multicolinealidad entre todos losX3Xyo;X3=X1X2.Xyo.

Esto simplemente no es así, como se puede demostrar exhibiendo todos los patrones posibles. No quiero agotarte con la pedantería de pasar por todas las posibilidades, así que déjame esbozar algunas de las más ilustrativas. La herramienta básica que utilizaré en este estudio es la observación de que la correlación entre cualquier variable permanece sin cambios cuando el sufre transformaciones lineales por separado. X1,X2Xyo Es decir, podemos multiplicar libremente cualquiera de las variables por constantes y agregar otras constantes a los resultados sin cambiar la correlación. Sin embargo, estas operaciones pueden alterar profundamente las correlaciones entre yX1X2Xyo.

Producto (casi) constante

Es posible que sea ​​constante (lo que, cuando una regresión incluye una constante, será problemático). Para crear un ejemplo, simplemente genere valores distintos de cero para y defina Su producto es igual a por construcción.X1X2X1X2=C/ /X1.C

Puede perturbar este ejemplo cambiando en una variable aleatoria con valores cercanos a Hacer esto introducirá una pequeña correlación entre y su producto, pero no mucho. Aquí, por ejemplo, hay un ejemplo en el que se extrae de una distribución Gamma y tiene una distribución Normal con media y desviación estándar de soloC0 0C.XyoX1(5 5)C11/ /100:

Figura 0

Aunque tiene una correlación de en este ejemplo, sus correlaciones con son solo yXyoρ12=-0,87X1X2-0,060.00.

Por lo tanto, aunque puede haber un pequeño problema al usar y en un modelo lineal, incluir es poco probable que lo exacerbe.X1X2X1X2

Producto no constante

Para aclarar los cálculos, también podríamos asumir que tiene una varianza unitaria. Deje que la varianza de sea y escriba para las correlaciones entre y Calculemos qué sucede con estas correlaciones cuando las constantes se restan deDebido a que desempeña roles perfectamente simétricos (simplemente cambie " " por " " en los índices), es suficiente calcular la correlación conXyoX1X2τ2ρ12yoX1X2Xyo.CyoXyo.Xyo12X1:

(*)Cor((X1-C1)(X2-C2),X1)=Cov((X1-C1)(X2-C2),X1)Var(X1-C1)(X2-C2)VarX1=Cov(X1X2-C2X1-C1X2+C1C2,X1)Var(X1X2-C1X2-C2X1+C1C2)=τρ121-C2-C1ρ12τ2-C1ρ12-C2-2C1ρ122-2C2ρ121+2C1C2ρ12.

Cero correlaciones con el producto.

Independientemente de cuál sea la correlación entre , podemos elegir para que el producto no esté correlacionado conXyo(C1,C2)Xyo.

Del análisis anterior, esto se logrará cuando el numerador de sea ​​cero para()yo=1,2:

{0 0=τρ121-C2-C1ρ120 0=τρ122-C1-C2ρ12

Cuando este sistema de ecuaciones en tiene una solución única. Aquí, por ejemplo, hay una matriz de diagrama de dispersión de un conjunto de datos de valores en el que tiene una distribución Normal bivariada con correlación pero la tiene correlación cero con :ρ1221,(C1,C2)100(Xyo)ρ12=-0,99XyoX1X2

Figura 1

Debido a que no está correlacionado con ("ortogonal a") tanto introducirlo en cualquier modelo lineal no creará ningún problema.X1X2Xyo,

Como sugiere este ejemplo, esta situación es la norma porque tiende a ocurrir cuando se ha centrado. En otras palabras, si centra sus variables antes de crear una interacción, generalmente no tendrá problemas con la colinealidad adicional.Xyo

Fuertes correlaciones con el producto.

Las ecuaciones también se pueden resolver para producir correlaciones fuertes. Ni siquiera necesitamos ir tan lejos como para resolver las ecuaciones exactamente (lo cual es un desafío), porque hay un atajo simple: al cambiar el de una de las para que sea casi cero y agregarle una constante, no cambiaremos su correlación, pero entonces el producto será casi igual a un múltiplo del otro de lo que los hace fuertemente correlacionados.()XyoXyo,

Aquí hay un ejemplo basado en el anterior. En este ejemplo, se cambió a para que sea ​​aproximadamente igual a lo que lo correlaciona positivamente con De hecho, y en este ejemplo.X21+X2/ /100X1X2X1,X1X2.ρ121=0.999878ρ122=-0.9898793

Figura 2

whuber
fuente
¡Perfecto! Gracias por la explicación detallada :)
hlinee