¿Agregar más variables a una regresión multivariable cambia los coeficientes de las variables existentes?

16

Digamos que tengo una regresión multivariable (varias variables independientes) que consta de 3 variables. Cada una de esas variables tiene un coeficiente dado. Si decido introducir una cuarta variable y volver a ejecutar la regresión, ¿cambiarán los coeficientes de las 3 variables originales?

En términos más generales: en una regresión multivariable (variables independientes múltiples), ¿el coeficiente de una variable dada está influenciado por el coeficiente de otra variable?

Lukas Pleva
fuente
1
Edite la pregunta para ser más preciso. ¿ multivariableQuiere decir con múltiples variables independientes ("regresión múltiple") o múltiples variables dependientes ("regresión multivariada" o "MAN (C) OVA")?
ttnphns
1
Si la respuesta fuera no, ¡no sería necesario hacer una regresión multivariable en primer lugar! (podríamos simplemente hacer muchas otras)
usuario603
1
Ese es un punto perspicaz, @ user603, pero creo que aún podría haber un lugar para la regresión múltiple, ya que si las otras variables se relacionan significativamente con la respuesta (aunque no sea la variable explicativa), pueden reducir la varianza residual que conduce a una mejora Potencia y precisión.
gung - Restablece a Monica

Respuestas:

23

Una estimación de parámetros en un modelo de regresión (por ) cambiará si una variable, X j , se añade al modelo que es: β^iXj

  1. correlacionado con la variable correspondiente de ese parámetro, (que ya estaba en el modelo), yXi
  2. correlacionado con la variable de respuesta, Y

Una beta estimada no cambiará cuando se agregue una nueva variable, si alguna de las anteriores no está correlacionada. Tenga en cuenta que si no están correlacionados en la población (es decir, , o ρ ( X j , Y ) = 0 ) es irrelevante. Lo que importa es que ambas correlaciones de muestra son exactamente 0 . Esencialmente, este nunca será el caso en la práctica a menos que esté trabajando con datos experimentales donde las variables fueron manipuladas de modo que no estén correlacionadas por diseño. ρ(Xi,Xj)=0 ρ(Xj,Y)=00

Tenga en cuenta también que la cantidad que cambian los parámetros puede no ser terriblemente significativa (eso depende, al menos en parte, de su teoría). Además, la cantidad que pueden cambiar es una función de las magnitudes de las dos correlaciones anteriores.

En una nota diferente, no es realmente correcto pensar en este fenómeno como "el coeficiente de una variable dada [siendo] influenciado por el coeficiente de otra variable". No son las betas las que se influencian entre sí. Este fenómeno es un resultado natural del algoritmo que utiliza el software estadístico para estimar los parámetros de la pendiente. Imagine una situación en la que es causada por X i y X j , que a su vez están correlacionadas entre sí. Si solo X i está en el modelo, parte de la variación en Y que se debe a X j se atribuirá inapropiadamente a X iYXiXjXiYXjXi. Esto significa que el valor de está sesgado; esto se llama sesgo variable omitido . Xi

gung - Restablece a Monica
fuente
Muy buen punto para hacer en esa última oración.
Glen_b -Reinstalar a Monica
Discuto el otro lado de este problema en mi respuesta aquí: Estimando lugar de b 1 x 1 + b 2 x 2 + b 3 x 3b1x1+b2x2b1x1+b2x2+b3x3 .
gung - Restablece a Monica
@gung, sé que tu respuesta es antigua, pero acabo de probar esta ideone.com/6CAkSR donde creé y x 2 están correlacionadas y x 1 no está correlacionada con y . Pero cuando agregué x 1 al modelo, el parámetro de x2 cambió aunque x 1 no está correlacionado con y . usted dijo en su respuesta "correlacionado con la variable de respuesta, Y Una beta estimada no cambiará cuando se agregue una nueva variable, si alguna de las anteriores no está correlacionada". ¿Me equivoco? yx2x1yx1x1yY
floyd
1
Debe estar perfectamente no correlacionado, no solo no significativamente correlacionado, @floyd. Si es así, la beta para no debería haber cambiado a menos que hubiera algún error. s1
gung - Restablece a Monica
@gung muchas gracias por responder. ¿Conoces una forma de crear datos tan perfectos? sé que eso no puede suceder en la vida real
floyd
3

Es matemáticamente posible que los coeficientes no cambien, pero es poco probable que no haya ningún cambio con datos reales, incluso si todas las variables independientes son independientes entre sí. Pero, cuando este es el caso, los cambios (que no sean en la intersección) tenderán a 0:

set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)

Sin embargo, en el mundo real, las variables independientes a menudo están relacionadas entre sí. En este caso, agregar una cuarta variable a la ecuación cambiará los otros coeficientes, a veces mucho.

Luego hay posibles interacciones ... pero esa es otra pregunta.

Peter Flom - Restablece a Monica
fuente
1

En términos generales, sí, agregar una variable cambia los coeficientes anteriores, casi siempre.

De hecho, esta es esencialmente la causa de la paradoja de Simpson , donde los coeficientes pueden cambiar, incluso revertir el signo, debido a las covariables omitidas.

Para que eso no suceda, necesitaríamos que las nuevas variables fueran ortogonales a las anteriores. Esto sucede a menudo en experimentos diseñados, pero es muy poco probable que ocurra en datos donde el patrón de las variables independientes no está planificado.

Glen_b -Reinstate a Monica
fuente