Digamos que tengo una regresión multivariable (varias variables independientes) que consta de 3 variables. Cada una de esas variables tiene un coeficiente dado. Si decido introducir una cuarta variable y volver a ejecutar la regresión, ¿cambiarán los coeficientes de las 3 variables originales?
En términos más generales: en una regresión multivariable (variables independientes múltiples), ¿el coeficiente de una variable dada está influenciado por el coeficiente de otra variable?
regression
multiple-regression
multivariable
Lukas Pleva
fuente
fuente
multivariable
Quiere decir con múltiples variables independientes ("regresión múltiple") o múltiples variables dependientes ("regresión multivariada" o "MAN (C) OVA")?Respuestas:
Una estimación de parámetros en un modelo de regresión (por ) cambiará si una variable, X j , se añade al modelo que es:β^i Xj
Una beta estimada no cambiará cuando se agregue una nueva variable, si alguna de las anteriores no está correlacionada. Tenga en cuenta que si no están correlacionados en la población (es decir, , o ρ ( X j , Y ) = 0 ) es irrelevante. Lo que importa es que ambas correlaciones de muestra son exactamente 0 . Esencialmente, este nunca será el caso en la práctica a menos que esté trabajando con datos experimentales donde las variables fueron manipuladas de modo que no estén correlacionadas por diseño.ρ(Xi,Xj)=0 ρ(Xj,Y)=0 0
Tenga en cuenta también que la cantidad que cambian los parámetros puede no ser terriblemente significativa (eso depende, al menos en parte, de su teoría). Además, la cantidad que pueden cambiar es una función de las magnitudes de las dos correlaciones anteriores.
En una nota diferente, no es realmente correcto pensar en este fenómeno como "el coeficiente de una variable dada [siendo] influenciado por el coeficiente de otra variable". No son las betas las que se influencian entre sí. Este fenómeno es un resultado natural del algoritmo que utiliza el software estadístico para estimar los parámetros de la pendiente. Imagine una situación en la que es causada por X i y X j , que a su vez están correlacionadas entre sí. Si solo X i está en el modelo, parte de la variación en Y que se debe a X j se atribuirá inapropiadamente a X iY Xi Xj Xi Y Xj Xi . Esto significa que el valor de está sesgado; esto se llama sesgo variable omitido . Xi
fuente
Es matemáticamente posible que los coeficientes no cambien, pero es poco probable que no haya ningún cambio con datos reales, incluso si todas las variables independientes son independientes entre sí. Pero, cuando este es el caso, los cambios (que no sean en la intersección) tenderán a 0:
Sin embargo, en el mundo real, las variables independientes a menudo están relacionadas entre sí. En este caso, agregar una cuarta variable a la ecuación cambiará los otros coeficientes, a veces mucho.
Luego hay posibles interacciones ... pero esa es otra pregunta.
fuente
En términos generales, sí, agregar una variable cambia los coeficientes anteriores, casi siempre.
De hecho, esta es esencialmente la causa de la paradoja de Simpson , donde los coeficientes pueden cambiar, incluso revertir el signo, debido a las covariables omitidas.
Para que eso no suceda, necesitaríamos que las nuevas variables fueran ortogonales a las anteriores. Esto sucede a menudo en experimentos diseñados, pero es muy poco probable que ocurra en datos donde el patrón de las variables independientes no está planificado.
fuente