¿El ajuste por variables superfluas sesga las estimaciones de MCO?

El tratamiento habitual de los libros de texto de ajuste por variables superfluas en OLS establece que el estimador aún no es imparcial, pero puede tener una mayor varianza (ver, por ejemplo, Greene, Econometric Analysis, 7th ed., P. 58).

El otro día me topé con el tratamiento de Judea Pearl de la Paradoja de Simpson y una bonita página web que simula cómo "la inclusión gradual de variables de control en un modelo de regresión cambia el signo de una asociación causal estimada en cada paso". Para mí, esto de alguna manera contradice la afirmación anterior. Siento que esto podría ser un problema muy sutil (aunque increíblemente importante), por lo que cualquier puntero a más literatura sería muy útil. Lo que me sorprende especialmente es que Greene afirma que tiene una prueba para su evaluación.

least-squares bias causality simpsons-paradox Julian Schuessler
fuente

Respuestas:

No hay contradicción.

El primer párrafo allí habla de variables superfluas.

Si se aplica la paradoja de Simpson, las variables no son superfluas.

Glen_b -Reinstate a Monica
fuente

En el problema que se plantea en el sitio web, si se ajusta para Z1 y Z2, la estimación está sesgada. Z1 parece no ser superfluo, pero ¿qué pasa con Z2? Por construcción, no afecta ni a X ni a Y, sin embargo, su inclusión sesga la estimación.

Julian Schuessler

Dependiendo de las relaciones exactas entre estas variables, una variable superflua con una correlación extremadamente alta con una de las otras variables independientes puede conducir a reversiones de signos. Esto también está cubierto en el libro de Greene en la parte sobre multicolinealidad. Afirma que los altos niveles de multicolinealidad pueden conducir a coeficientes inestables y poco confiables debido a la singularidad cercana.

Andy

Debería haber mencionado que el comentario anterior fue más para @JulianSchuessler. Por la respuesta de Glen_b +1

Andy

Z2 no causa X o Y, pero es

d

$d$ -conectado a X a través de la variable no observada U, y a Y a través de Z3. Por lo tanto, está correlacionado con X e Y. Si define "superfluo" como "independiente", entonces Greene está en lo correcto: el condicionamiento de una variable Z independiente de X e Y no sesgará su estimación (excluyendo los casos en que la independencia sea "infiel" a las relaciones causales). Creo que la multicolinealidad es un tema aparte. El sesgo del condicionamiento en las variables "colisionadoras" no requiere una dependencia muy alta entre las variables, y no explota la varianza de su estimación.

Lizzie Silver

@LizzieSilver: Gracias, esta es también mi comprensión actual, después de haber profundizado en el trabajo de Pearl: si uno bloquea todos los caminos de puerta trasera al incluir los regresores apropiados, se obtienen estimaciones imparciales. Sin embargo, también queda absolutamente claro en el trabajo de Pearl que ajustar las variables incorrectas, que podrían estar correlacionadas con X e Y, sesga la estimación del efecto causal de la variable de interés. Así que me pregunto qué hacer con la prueba habitual de imparcialidad. Tal vez la regresión incorrecta es insesgada, pero el coeficiente en ella no es igual a los efectos causales sino a otra cosa.

Julian Schuessler

Considere un modelo de regresión lineal postulado

y_{yo} = {si}_{0 0} + {si}_{1} X_{1 yo} + {si}_{2} X_{2 yo} + {tu}_{yo}, yo = 1, . . ., norte

$y_i = b_0 + b_1X_{1i} + b_2X_{2i} + u_i,\;\; i=1,...,n$

Como cuestión de álgebra (y no de supuestos estocásticos), el estimador de MCO en notación matricial es

\hat{si} = si + {(X^{'} X)}^{- 1} X^{'} tu

$\hat b = b + \left(\mathbf X'\mathbf X\right)^{-1}\mathbf X'\mathbf u$

Por lo tanto, su valor esperado condicional en la matriz del regresor es

mi (\hat{si} ∣ X) = si + {(X^{'} X)}^{- 1} X^{'} mi (tu ∣ X)

$E\left(\hat b\mid \mathbf X\right) = b + \left(\mathbf X'\mathbf X\right)^{-1}\mathbf X'E\left(\mathbf u\mid\mathbf X \right)$

Entonces: si la "exogeneidad estricta" de los regresores con respecto al término de error se cumple, o, en otras palabras, si todos los términos de error son independientes de la media de todos los regresores, pasado presente y futuro, (que es el supuesto de referencia en el Clásico Modelo de regresión lineal), es decir, si $E\left(\mathbf u\mid\mathbf X \right)=\mathbf 0$ , tendremos

mi (\hat{si} ∣ X) = si + 0 0 \Rightarrow mi (\hat{si}) = si

$E\left(\hat b\mid \mathbf X\right) = b + \mathbf 0 \Rightarrow E(\hat b) = b$

usando también la ley de expectativas iteradas.

Dado todo lo anterior, ¿qué significa "variable superflua"? Supongo que significa "no relacionado" con la variable dependiente. Pero "no relacionado" debería traducirse como "estocásticamente independiente". Pero si es independiente de la variable dependiente, es necesariamente independiente del término de error (y, por lo tanto, también es estrictamente exógeno con respecto a ella), por lo que todo lo anterior se cumple también para cualquier variable superflua, y el estimador OLS es imparcial incluso si, digamos, la variable $X_2$ es "superfluo" y el verdadero modelo no lo contiene.

Así es como los economometristas entienden el problema. Ahora, en un entorno más general, "superfluo" podría significar que decir: $X_2$ es independiente de $y$ condicional a la presencia de $X_1$ (que sospecho que está más cerca de lo que Pearl tiene en mente). Aún así, siempre y cuando $X_2$ es estrictamente exógeno al término de error, el resultado de imparcialidad se mantiene.

Alecos Papadopoulos
fuente