En la regresión múltiple, ¿por qué las interacciones se modelan como productos, y no otra cosa, de los predictores?

8

Considere la regresión lineal múltiple. Esta pregunta puede ser engañosamente simple, pero estoy tratando de entender intuitivamente por qué, por ejemplo, si tengo predictores X1 y X2, X1 * X2 puede capturar adecuadamente las interacciones entre estos predictores.

Sé que los términos de interacción se modelan como productos, solo porque eso es lo que me enseñaron en la escuela, y eso es lo que todos dicen hacer. Supongo que quizás haya algún argumento geométrico.

Pero, ¿por qué un producto (por ejemplo, dos características numéricas, y no la complejidad adicional de multiplicar por una como variable ficticia mientras que la otra es numérica, etc.) capturará adecuadamente las interacciones?

¿Por qué las "interacciones" no son mejor capturadas por otra f (X1, X2) por defecto en lugar de específicamente X1 * X2?

Puedo ver la idea de que X1 * X2 puede capturar situaciones en las que los signos de X1 y X2 son iguales o no, pero entonces, ¿por qué no, por ejemplo, las interacciones no se modelarían por decir f (X1, X2) = signo (X1 ) * signo (X2) en lugar de f (X1, X2) = X1X2?

Me doy cuenta de que puedo agregar cualquier otra f (X1, X2) a una regresión o cualquier modelo predictivo, pero encontrar la forma exacta de las interacciones mediante la codificación manual lleva mucho tiempo. ¿Cómo sé que X1X2 es una buena primera suposición?

Proyecto Chile
fuente

Respuestas:

6

Podemos concebir una "interacción" entre las variables regresoras y como una desviación de una relación perfectamente linealx1x2 en la que la relación entre un regresor y la respuesta es diferente para diferentes valores de los otros regresores. El "término de interacción" habitual es, en un sentido que se explicará a continuación, una desviación "más simple".

Definiciones y conceptos

"Relación lineal" simplemente significa el modelo habitual en el que suponemos que una respuesta difiere de una combinación lineal de (y una constante) por errores independientes de media ceroYxiε:

(*)Y=β0+β1x1+β2x2+ε.

"Interacción", en el sentido más general, significa que los parámetros pueden depender de otras variables.βi

Específicamente, en este ejemplo de solo dos regresores, podríamos escribir genéricamente

β1=β1(x2) and β2=β2(x1).

Análisis

Ahora, en la práctica, nadie excepto un físico teórico realmente cree que el modelo es completamente exacto: es una aproximación a la verdad y, esperamos, una aproximación. Siguiendo con esta idea, podríamos preguntarnos si podríamos aproximar de manera similar las funciones con las lineales en caso de que necesitemos modelar algún tipo de interacción. Específicamente, podríamos intentar escribir()βi

β1(x2)=γ0+γ1x2+ tiny error1;
β2(x1)=δ0+δ1x1+ tiny error2.

Veamos a dónde lleva eso. Al conectar estas aproximaciones lineales en obtiene()

Y=β0+β1(x2)x1+β2(x1)x2+ε=β0+(γ0+γ1x2+ tiny error1)x1+(δ0+δ1x1+ tiny error2)x2+ε=β0+γ0x1+δ0x2+(γ1+δ1)x1x2+

donde " " representa el error total,

=( tiny error1)x1+( tiny error2)x2+ε.

Con suerte, multiplicar esos dos "pequeños errores" por los valores típicos de (a) será intrascendente en comparación con o (b) puede tratarse como términos aleatorios que, cuando se agregan a (y tal vez ajustando el el término constante para acomodar cualquier sesgo sistemático) puede tratarse como un término de error aleatorio. xiεεβ0

En cualquier caso, con un cambio de notación vemos que este modelo de aproximación lineal a una interacción toma la forma

(**)Y=β0+β1x1+β2x2+β12x1x2+ε,

que es precisamente el modelo de regresión de "interacción" habitual. (Tenga en cuenta que ninguno de los nuevos parámetros, ni sí, es la misma cantidad originalmente representada por esos términos en )ε().

Observe cómo surge a través de la variación en ambos parámetros originales. Captura la combinación de (i) cómo el coeficiente de depende de (es decir, a través de ) y (ii) cómo el coeficiente de depende de (a través de ).β12x1x2γ1x2x1δ1


Algunas consecuencias

Es una consecuencia de este análisis que si arreglamos todos los regresores menos uno, entonces ( condicionalmente ) la respuesta sigue siendo una función lineal del regresor restante. Y Por ejemplo, si fijamos el valor de entonces podemos reescribir el modelo de interacción comox2,()

Y=(β0+β2x2)+(β1+β12x2)x1+ε,

donde la intersección es y la pendiente (es decir, el coeficiente ) es Esto permite una fácil descripción y comprensión. Geométricamente, la superficie dada por la funciónβ0+β2x2x1β1+β2x2.

f(x1,x2)=β0+β1x1+β2x2+β12x1x2

se rige: cuando lo cortamos en paralelo a cualquiera de los ejes de coordenadas, el resultado es siempre una línea. (Sin embargo, la superficie en sí no es plana excepto cuando De hecho, en todas partes tiene una curvatura gaussiana negativa).β12=0.

Finalmente, si nuestra esperanza para (a) o (b) no se desarrolla, podríamos expandir aún más el comportamiento funcional del original para incluir términos de segundo orden o superiores. Llevar a cabo el mismo análisis muestra que esto introducirá términos de la forma y así sucesivamente en el modelo. En este sentido, incluir un término de interacción (producto) es simplemente el primer paso, y el más simple, para modelar relaciones no lineales entre la respuesta y los regresores por medio de funciones polinómicas.βix12, x22, x1x22, x12x2,

Finalmente, en su libro de texto EDA (Addison-Wesley 1977), John Tukey mostró cómo este enfoque puede llevarse a cabo de manera mucho más general. Después de la primera "reexpresión" (es decir, aplicando transformaciones no lineales adecuadas a) los regresores y la respuesta, a menudo ocurre que cualquiera de los modelos aplica a las variables transformadas o, si no, el modelo puede ajustarse fácilmente (mediante un análisis robusto de los residuos). Esto permite que una gran variedad de relaciones no lineales se expresen e interpreten como respuestas condicionalmente lineales.()()

whuber
fuente
1
Esta es una encantadora respuesta detallada. Gracias. Además, sigo viendo referencias al libro de Tukey en este sitio ... aunque es muy antiguo. Tal vez es hora de leerlo.
ChilliProject