En la regresión lineal, ¿por qué deberíamos incluir términos cuadráticos cuando solo estamos interesados ​​en términos de interacción?

10

Supongamos que estoy interesado en un modelo de regresión lineal, para , porque me gustaría ver si una interacción entre las dos covariables tiene un efecto en Y.

Yi=β0+β1x1+β2x2+β3x1x2

En las notas de un curso para profesores (con quienes no tengo contacto), dice: Al incluir términos de interacción, debe incluir sus términos de segundo grado. es decir, deben incluirse en la regresión.

Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

¿Por qué debería uno incluir términos de segundo grado cuando solo estamos interesados ​​en las interacciones?

tonto126
fuente
77
Si el modelo tiene , debe incluir y . Pero y son opcionales. x1x2x1x2x12x22
user158565
66
La opinión de tu profesor parece ser inusual. Puede provenir de un fondo especializado o un conjunto de experiencias, porque "debería" definitivamente no es un requisito universal. Puede encontrar stats.stackexchange.com/questions/11009 para ser de algún interés.
whuber
@ user158565 ¡Hola! ¿Puedo preguntar por qué también deberíamos incluir y ? Originalmente no pensé en eso, ¡pero ahora que lo mencionaste ...! x1x2
tonto126
@whuber hola! Gracias por el enlace! Creo que incluir el efecto principal tiene sentido, pero tengo problemas para extenderlo a tener que incluir términos de segundo orden. // user158565 Creo que el enlace de arriba respondió eso, ¡gracias!
tonto126
¿Podría publicar un enlace a los datos?
James Phillips

Respuestas:

8

Depende del objetivo de la inferencia. Si desea hacer una inferencia de si existe una interacción, por ejemplo, en un contexto causal (o, más generalmente, si desea interpretar el coeficiente de interacción), esta recomendación de su profesor tiene sentido, y proviene del hecho de que la especificación errónea de la forma funcional puede conducir a inferencias erróneas sobre la interacción .

Aquí hay un ejemplo simple donde no hay un término de interacción entre y en la ecuación estructural de , sin embargo, si no incluye el término cuadrático de , concluiría erróneamente que interactúa con cuando de hecho no lo hace. t.x1x2yx1x1x2

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

Esto puede interpretarse simplemente como un caso de sesgo de variable omitido, y aquí es la variable omitida. Si regresa e incluye el término al cuadrado en su regresión, la interacción aparente desaparece.x12

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

Por supuesto, este razonamiento se aplica no solo a los términos cuadráticos, sino a la especificación errónea de la forma funcional en general. El objetivo aquí es modelar la función de expectativa condicional de manera apropiada para evaluar la interacción. Si se limita a modelar con regresión lineal, deberá incluir estos términos no lineales manualmente. Pero una alternativa es utilizar modelos de regresión más flexibles, como la regresión de cresta del núcleo, por ejemplo.

Carlos Cinelli
fuente
Gracias @CarlosCinelli, en conclusión, ¿está diciendo que deberíamos incluir términos del mismo grado, para tener en cuenta la posible especificación errónea de la forma funcional, y dejar que la regresión determine qué términos son significativos?
tonto126
3
@KevinC la pregunta principal aquí es: ¿quieres interpretar el término de interacción? Si lo hace, entonces la especificación errónea de la forma funcional es un problema real. Agregar términos cuadráticos es solo una forma simple de capturar las no linealidades, pero el problema general es modelar la función de expectativa condicional de manera adecuada.
Carlos Cinelli
1
¡No lo incluya rm(list=ls())en el código publicado aquí! Si las personas simplemente copian y pegan y ejecutan el código, podrían recibir una sorpresa ... Lo eliminé por ahora.
kjetil b halvorsen
3

Los dos modelos que enumeró en su respuesta se pueden volver a expresar para dejar en claro cómo se postula el efecto de para depender de (o al revés) en cada modelo.X1X2

El primer modelo se puede volver a expresar así:

Y=β0+(β1+β3X2)X1+β2X2+ϵ,

lo que muestra que, en este modelo, se supone que tiene un efecto lineal sobre (controlando el efecto de ) pero la magnitud de este efecto lineal, capturado por el coeficiente de pendiente de , cambia linealmente en función de . Por ejemplo, el efecto de en puede aumentar en magnitud a medida que aumentan los valores de .X1YX2X1X2X1YX2

El segundo modelo puede reexpresarse así:

Y=β0+(β1+β3X2)X1+β4X12+β2X2+β5X22+ϵ,

lo que muestra que, en este modelo, se supone que el efecto de en (que controla el efecto de ) es cuadrático en lugar de lineal. Este efecto cuadrático se captura al incluir y en el modelo. Si bien se supone que el coeficiente de es independiente de , se supone que el coeficiente de depende linealmente de .X1YX2X1X12X12X2X1X2

El uso de cualquiera de los modelos implicaría que está haciendo suposiciones completamente diferentes sobre la naturaleza del efecto de en (controlando el efecto de ).X1YX2

Por lo general, las personas se ajustan al primer modelo. Luego podrían trazar los residuos de ese modelo contra y por turnos. Si los residuos revelan un patrón cuadrático en los residuos en función de y / o , el modelo se puede aumentar en consecuencia para que incluya y / o (y posiblemente su interacción).X1X2X1X2X12X22

Tenga en cuenta que simplifiqué la notación que usó para la coherencia y también expliqué el término de error explícito en ambos modelos.

Isabella Ghement
fuente
2
Hola @IsabellaGhement, gracias por tu explicación. En resumen, realmente no hay "reglas" en el sentido de que debamos agregar términos cuadráticos si incluimos términos de interacción. Al final del día, se trata de los supuestos que estamos haciendo sobre nuestro modelo y los resultados de nuestro análisis (es decir, gráficos residuales). ¿Es esto correcto? Gracias de nuevo :)!
tonto126
2
Así es, Kevin! No hay "reglas", porque cada conjunto de datos es diferente y también está destinado a responder preguntas diferentes. Es por eso que es importante que sepamos que cada modelo que ajustamos a ese conjunto de datos implica supuestos diferentes, que deben ser respaldados por los datos para que podamos confiar en los resultados del modelo. Las gráficas de diagnóstico del modelo (por ejemplo, la gráfica de los residuos frente a los valores ajustados) nos ayudan a verificar hasta qué punto, si corresponde, los datos respaldan los supuestos del modelo.
Isabella Ghement
1
@KevinC: ¡Genial! ¡Felices fiestas para ti también, Kevin! ☃🎉🎁🎈
Isabella Ghement