Sinopsis
Cuando los predictores están correlacionados, un término cuadrático y un término de interacción llevarán información similar. Esto puede causar que el modelo cuadrático o el modelo de interacción sean significativos; pero cuando se incluyen ambos términos, porque son muy similares, ninguno puede ser significativo. El diagnóstico estándar de multicolinealidad, como VIF, puede no detectar nada de esto. Incluso un diagrama de diagnóstico, diseñado específicamente para detectar el efecto del uso de un modelo cuadrático en lugar de interacción, puede fallar en determinar qué modelo es el mejor.
Análisis
El objetivo de este análisis, y su principal fortaleza, es caracterizar situaciones como la descrita en la pregunta. Con tal caracterización disponible, es una tarea fácil simular datos que se comportan en consecuencia.
Considere dos predictores y X 2 (que estandarizaremos automáticamente para que cada uno tenga varianza unitaria en el conjunto de datos) y suponga que la respuesta aleatoria Y está determinada por estos predictores y su interacción más un error aleatorio independiente:X1X2Y
Y=β1X1+β2X2+β1,2X1X2+ε.
En muchos casos, los predictores están correlacionados. El conjunto de datos podría verse así:
Estos datos de muestra se generaron con y β 1 , 2 = 0.1 . La correlación entre X 1 y X 2 es 0.85 .β1=β2=1β1,2=0.1X1X20.85
Esto no necesariamente significa que estamos pensando en y X 2 como realizaciones de variables aleatorias: puede incluir la situación en la que X 1 y X 2 son configuraciones en un experimento diseñado, pero por alguna razón estas configuraciones no son ortogonales.X1X2X1X2
Independientemente de cómo surja la correlación, una buena manera de describirla es en términos de cuánto difieren los predictores de su promedio, . Estas diferencias serán bastante pequeñas (en el sentido de que su varianza es menor que 1 2 , podemos reexpresar (digamos)X0=(X1+X2)/21 ); cuanto mayor sea la correlación entre y X 2 , menores serán estas diferencias. Escribiendo, entonces, X 1 = X 0 + δ 1 y X 2 = X 0 + δX1X2X1=X0+δ1X2=X0+δ2 en términos de X 1 como X 2 = X 1 + ( δ 2 - δ 1 ) . Al conectar estosolo al término deinteracción, el modelo esX2X1X2=X1+(δ2−δ1)
Y=β1X1+β2X2+β1,2X1(X1+[δ2−δ1])+ε=(β1+β1,2[δ2−δ1])X1+β2X2+β1,2X21+ε
Siempre que los valores de varíen solo un poco en comparación con β 1 , podemos recopilar esta variación con los verdaderos términos aleatorios, escribiendoβ1,2[δ2−δ1]β1
Y=β1X1+β2X2+β1,2X21+(ε+β1,2[δ2−δ1]X1)
Por lo tanto, si retrocedemos contra X 1 , X 2 y X 2 1 , estaremos cometiendo un error: la variación en los residuos dependerá de X 1 (es decir, será heterocedástica ). Esto se puede ver con un cálculo de varianza simple:YX1,X2X21X1
var(ε+β1,2[δ2−δ1]X1)=var(ε)+[β21,2var(δ2−δ1)]X21.
εβ1,2[δ2−δ1]X1X1X1
X1X2δ2−δ1β1,2
En resumen, cuando los predictores están correlacionados y la interacción es pequeña pero no demasiado pequeña, un término cuadrático (en cualquier predictor solo) y un término de interacción serán individualmente significativos pero confundidos entre sí. Es poco probable que los métodos estadísticos por sí solos nos ayuden a decidir cuál es mejor usar.
Ejemplo
β1,20.1150
Primero, el modelo cuadrático :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.03363 0.03046 1.104 0.27130
x1 0.92188 0.04081 22.592 < 2e-16 ***
x2 1.05208 0.04085 25.756 < 2e-16 ***
I(x1^2) 0.06776 0.02157 3.141 0.00204 **
Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808
0.068β1,2=0.1
x1 x2 I(x1^2)
3.531167 3.538512 1.009199
5
A continuación, el modelo con una interacción pero sin término cuadrático:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02887 0.02975 0.97 0.333420
x1 0.93157 0.04036 23.08 < 2e-16 ***
x2 1.04580 0.04039 25.89 < 2e-16 ***
x1:x2 0.08581 0.02451 3.50 0.000617 ***
Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811
x1 x2 x1:x2
3.506569 3.512599 1.004566
Todos los resultados son similares a los anteriores. Ambos son igualmente buenos (con una ventaja muy pequeña para el modelo de interacción).
Finalmente, incluyamos tanto la interacción como los términos cuadráticos :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02572 0.03074 0.837 0.404
x1 0.92911 0.04088 22.729 <2e-16 ***
x2 1.04771 0.04075 25.710 <2e-16 ***
I(x1^2) 0.01677 0.03926 0.427 0.670
x1:x2 0.06973 0.04495 1.551 0.123
Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981
x1 x2 I(x1^2) x1:x2
3.577700 3.555465 3.374533 3.359040
X1X2X21X1X2
Si hubiéramos intentado detectar la heterocedasticidad en el modelo cuadrático (el primero), estaríamos decepcionados:
|X1|