Cualquiera de los términos cuadrático o de interacción es significativo de forma aislada, pero ninguno de los dos está unido

15

Como parte de una tarea, tuve que ajustar un modelo con dos variables predictoras. Luego tuve que dibujar una gráfica de los residuos de los modelos contra uno de los predictores incluidos y hacer cambios basados ​​en eso. El gráfico mostró una tendencia curvilínea, por lo que incluí un término cuadrático para ese predictor. El nuevo modelo mostró que el término cuadrático es significativo. Todo bien hasta ahora.

Sin embargo, los datos sugieren que una interacción también tiene sentido. Agregar un término de interacción al modelo original también 'fijó' la tendencia curvilínea y también fue significativo cuando se agregó al modelo (sin el término cuadrático). El problema es que, cuando se agregan tanto el término cuadrático como el de interacción al modelo, uno de ellos no es significativo.

¿Qué término (el cuadrático o la interacción) debo incluir en el modelo y por qué?

Tal Bashan
fuente

Respuestas:

21

Sinopsis

Cuando los predictores están correlacionados, un término cuadrático y un término de interacción llevarán información similar. Esto puede causar que el modelo cuadrático o el modelo de interacción sean significativos; pero cuando se incluyen ambos términos, porque son muy similares, ninguno puede ser significativo. El diagnóstico estándar de multicolinealidad, como VIF, puede no detectar nada de esto. Incluso un diagrama de diagnóstico, diseñado específicamente para detectar el efecto del uso de un modelo cuadrático en lugar de interacción, puede fallar en determinar qué modelo es el mejor.


Análisis

El objetivo de este análisis, y su principal fortaleza, es caracterizar situaciones como la descrita en la pregunta. Con tal caracterización disponible, es una tarea fácil simular datos que se comportan en consecuencia.

Considere dos predictores y X 2 (que estandarizaremos automáticamente para que cada uno tenga varianza unitaria en el conjunto de datos) y suponga que la respuesta aleatoria Y está determinada por estos predictores y su interacción más un error aleatorio independiente:X1X2Y

Y=β1X1+β2X2+β1,2X1X2+ε.

En muchos casos, los predictores están correlacionados. El conjunto de datos podría verse así:

Matriz de diagrama de dispersión

Estos datos de muestra se generaron con y β 1 , 2 = 0.1 . La correlación entre X 1 y X 2 es 0.85 .β1=β2=1β1,2=0.1X1X20.85

Esto no necesariamente significa que estamos pensando en y X 2 como realizaciones de variables aleatorias: puede incluir la situación en la que X 1 y X 2 son configuraciones en un experimento diseñado, pero por alguna razón estas configuraciones no son ortogonales.X1X2X1X2

Independientemente de cómo surja la correlación, una buena manera de describirla es en términos de cuánto difieren los predictores de su promedio, . Estas diferencias serán bastante pequeñas (en el sentido de que su varianza es menor que 1 2 , podemos reexpresar (digamos)X0=(X1+X2)/21 ); cuanto mayor sea la correlación entre y X 2 , menores serán estas diferencias. Escribiendo, entonces, X 1 = X 0 + δ 1 y X 2 = X 0 + δX1X2X1=X0+δ1X2=X0+δ2 en términos de X 1 como X 2 = X 1 + ( δ 2 - δ 1 ) . Al conectar estosolo al término deinteracción, el modelo esX2X1X2=X1+(δ2δ1)

Y=β1X1+β2X2+β1,2X1(X1+[δ2δ1])+ε=(β1+β1,2[δ2δ1])X1+β2X2+β1,2X12+ε

Siempre que los valores de varíen solo un poco en comparación con β 1 , podemos recopilar esta variación con los verdaderos términos aleatorios, escribiendoβ1,2[δ2δ1]β1

Y=β1X1+β2X2+β1,2X12+(ε+β1,2[δ2δ1]X1)

Por lo tanto, si retrocedemos contra X 1 , X 2 y X 2 1 , estaremos cometiendo un error: la variación en los residuos dependerá de X 1 (es decir, será heterocedástica ). Esto se puede ver con un cálculo de varianza simple:YX1,X2X12X1

var(ε+β1,2[δ2δ1]X1)=var(ε)+[β1,22var(δ2δ1)]X12.

εβ1,2[δ2δ1]X1X1X1

X1X2δ2δ1β1,2

En resumen, cuando los predictores están correlacionados y la interacción es pequeña pero no demasiado pequeña, un término cuadrático (en cualquier predictor solo) y un término de interacción serán individualmente significativos pero confundidos entre sí. Es poco probable que los métodos estadísticos por sí solos nos ayuden a decidir cuál es mejor usar.


Ejemplo

β1,20.1150

Primero, el modelo cuadrático :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.03363    0.03046   1.104  0.27130    
x1           0.92188    0.04081  22.592  < 2e-16 ***
x2           1.05208    0.04085  25.756  < 2e-16 ***
I(x1^2)      0.06776    0.02157   3.141  0.00204 ** 

Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808 

0.068β1,2=0.1

      x1       x2  I(x1^2) 
3.531167 3.538512 1.009199 

5

A continuación, el modelo con una interacción pero sin término cuadrático:

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02887    0.02975    0.97 0.333420    
x1           0.93157    0.04036   23.08  < 2e-16 ***
x2           1.04580    0.04039   25.89  < 2e-16 ***
x1:x2        0.08581    0.02451    3.50 0.000617 ***

Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811

      x1       x2    x1:x2 
3.506569 3.512599 1.004566 

Todos los resultados son similares a los anteriores. Ambos son igualmente buenos (con una ventaja muy pequeña para el modelo de interacción).

Finalmente, incluyamos tanto la interacción como los términos cuadráticos :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02572    0.03074   0.837    0.404    
x1           0.92911    0.04088  22.729   <2e-16 ***
x2           1.04771    0.04075  25.710   <2e-16 ***
I(x1^2)      0.01677    0.03926   0.427    0.670    
x1:x2        0.06973    0.04495   1.551    0.123    

Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981 

      x1       x2  I(x1^2)    x1:x2 
3.577700 3.555465 3.374533 3.359040

X1X2X12X1X2

Si hubiéramos intentado detectar la heterocedasticidad en el modelo cuadrático (el primero), estaríamos decepcionados:

Trama de diagnóstico

|X1|

whuber
fuente
9

¿Qué tiene más sentido en función de la fuente de los datos?

No podemos responder esta pregunta por usted, la computadora no puede responder esta pregunta por usted. La razón por la que todavía necesitamos estadísticos en lugar de solo programas estadísticos se debe a preguntas como esta. Las estadísticas no se limitan a calcular los números, se trata de comprender la pregunta y la fuente de los datos y de poder tomar decisiones basadas en la ciencia y los antecedentes y otra información fuera de los datos que mira la computadora. Su maestro probablemente espera que contemple esto como parte de la tarea. Si hubiera asignado un problema como este (y lo he hecho antes), estaría más interesado en la justificación de su respuesta que en la que realmente eligió.

Probablemente esté más allá de su clase actual, pero un enfoque si no hay una razón científica clara para preferir un modelo sobre el otro es el promedio del modelo, usted ajusta ambos modelos (y tal vez varios otros modelos), luego promedia las predicciones juntas (a menudo ponderado por la bondad de ajuste de los diferentes modelos).

Otra opción, cuando sea posible, es recopilar más datos y, si es posible, elegir los valores de x para que quede más claro cuáles son los efectos no lineales frente a los de interacción.

Existen algunas herramientas para comparar el ajuste de modelos no anidados (AIC, BIC, etc.), pero para este caso probablemente no mostrarán la diferencia suficiente para anular la comprensión de dónde provienen los datos y qué tiene más sentido.

Greg Snow
fuente
1

Otra posibilidad, además de @ Greg's, es incluir ambos términos, aunque uno no sea significativo. Incluir solo términos estadísticamente significativos no es una ley del universo.

Peter Flom - Restablece a Monica
fuente
Gracias Peter y @Greg. Supongo que en esta etapa de mis estudios estoy buscando respuestas absolutas a preguntas que necesitan al menos un razonamiento cualitativo. Dado que la adición del término cuadrático o el término de interacción 'fijó' la gráfica de residuos versus predictor, no estaba seguro de cuál debería incluirse. Lo que me sorprendió es que la inclusión de un término cuadrático hizo que el término de interacción no fuera significativo. Pensé que si hubiera una interacción, sería importante independientemente de si se incluía o no un término cuadrático.
Tal Bashan
1
Hola @TalBashan Un famoso estadístico, Donald Cox, dijo una vez que "no hay preguntas estadísticas de rutina, solo rutinas estadísticas cuestionables"
Peter Flom - Restablece a Monica
@PeterFlom ¿Quizás te refieres a Sir David Cox?
Michael R. Chernick
Ooops Sí, David, no Donald. Lo siento.
Peter Flom - Restablece a Monica