La primera oración de esta página wiki afirma que "en econometría, un problema de endogeneidad ocurre cuando una variable explicativa se correlaciona con el término de error. 1 "
Mi pregunta es: ¿cómo puede suceder esto? ¿No se elige la regresión beta de modo que el término de error sea ortogonal al espacio de la columna de la matriz de diseño?
regression
ciudadano del norte
fuente
fuente
Respuestas:
Está combinando dos tipos de término "error". Wikipedia en realidad tiene un artículo dedicado a esta distinción entre errores y residuos .
En una regresión OLS, los residuos (sus estimaciones del término de error o son de hecho la garantía de ser correlacionado con las variables de predicción, suponiendo que la regresión contiene un término de intersección.ε^
Pero los errores "verdaderos" pueden estar correlacionados con ellos, y esto es lo que cuenta como endogeneidad.ε
Para simplificar las cosas, considere el modelo de regresión (puede ver esto descrito como el " proceso generador de datos " subyacente o "DGP", el modelo teórico que suponemos que genera el valor de ):y
En principio, no hay ninguna razón por la cual no pueda correlacionarse con en nuestro modelo, por mucho que preferiríamos que no violara los supuestos estándar de OLS de esta manera. Por ejemplo, podría ser que depende de otra variable que se ha omitido de nuestro modelo, y esto se ha incorporado al término de perturbación ( es donde agrupamos todas las cosas que no sean que afectan a ). Si esta variable omitida también se correlaciona con , entonces a su vez se correlacionará con y tenemos endogeneidad (en particular, sesgo de variable omitida ).x y ε x y x ε xε y ε x y x ε x
Cuando estima su modelo de regresión en los datos disponibles, obtenemos
Debido a la forma de MCO trabajos *, los residuos ε será correlacionada con x . Pero eso no significa que tengamos endógeno evitado - sólo significa que no podemos detectar mediante el análisis de la correlación entre ε y X , que será (hasta error numérico) cero. Y debido a que se han violado los supuestos de OLS, ya no tenemos garantizadas las buenas propiedades, como la imparcialidad, disfrutamos mucho de OLS. Nuestra estimación β 2 estará sesgada.ε^ x ε^ x β^2
El hecho de que ε es correlacionado con x sigue inmediatamente de las ecuaciones "normales" que usamos para elegir nuestras mejores estimaciones de los coeficientes.(∗) ε^ x
Si no está acostumbrado a la configuración de la matriz, y me apego al modelo bivariado utilizado en mi ejemplo anterior, entonces la suma de los residuos al cuadrado es y para encontrar el óptimo b 1 = β 1 y b 2 =S(b1,b2)=∑ni=1ε2i=∑ni=1(yi−b1−b2xi)2 b1=β^1 que minimizan esto encontramos las ecuaciones normales, en primer lugar la condición de primer orden para la intersección estimada:b2=β^2
lo que muestra que la suma (y por lo tanto la media) de los residuos es cero, por lo que la fórmula de la covarianza entre ε y cualquier variable x entonces se reduce a 1ε^ x . Vemos que esto es cero al considerar la condición de primer orden para la pendiente estimada, que es que1n−1∑ni=1xiε^i
Si está acostumbrado a trabajar con matrices, podemos generalizar esto a regresión múltiple definiendo ; la condición de primer orden para minimizar S ( b ) en óptima b = β es:S(b)=ε′ε=(y−Xb)′(y−Xb) S(b) b=β^
Esto implica cada fila de , y por lo tanto cada columna de X , es ortogonal a ε . Entonces, si la matriz de diseño X tiene una columna de unos (lo que ocurre si el modelo tiene un término de intersección), debemos tener Σ n i = 1 ε i = 0 por lo que los residuos tienen cero suma y media cero. La covarianza entre ε y cualquier variable x es de nuevo 1X′ X ε^ X ∑ni=1ε^i=0 ε^ x y para cualquier variablexincluido en nuestro modelo que conocemos esta suma es cero, porque ε es ortogonal a cada columna de la matriz de diseño. Por lo tanto no es cero covarianza y la correlación cero, entre ε y cualquier variable predictorx.1n−1∑ni=1xiε^i x ε^ ε^ x
Si prefiere una visión más geométrica de las cosas , nuestro deseo de que Y mentiras tan cerca como sea posible y en una especie de Pitágoras de forma , y el hecho de que Y está limitada al espacio columna de la matriz de diseño X , dictan que y debería ser la proyección ortogonal de la y observada en ese espacio de columna. Por lo tanto el vector de residuos ε = y - y es ortogonal a cada columna de X , incluyendo el vector de unos 1 ny^ y y^ X y^ y ε^=y−y^ X 1n si se incluye un término de intercepción en el modelo. Como antes, esto implica que la suma de los residuos es cero, por lo que la ortogonalidad del vector residual con las otras columnas de asegura que no está correlacionada con cada uno de esos predictores.X
Pero nada de lo que hemos hecho aquí dice nada sobre los verdaderos errores . Suponiendo que hay un término de intersección en nuestro modelo, los residuos ε solamente están correlacionadas con x como consecuencia matemática de la forma en que elegimos para estimar los coeficientes de regresión beta . La forma en que seleccionamos nuestra β afecta nuestros valores predichos y y por lo tanto nuestros residuos ε = y - y . Si elegimos β por MCO, hay que resolver las ecuaciones normales y estos valer que nuestros residuos estimadosε ε^ x β^ β^ y^ ε^=y−y^ β^ están correlacionados conx. Nuestra elección de β afecta y pero noE(Y)y por lo tanto no impone condiciones a los verdaderos erroresε=Y-E(Y). Sería un error pensar que ε ha de alguna manera "heredada" de su uncorrelatedness conxde la suposición de que OLSεdebe ser correlacionada conx. La falta de correlación surge de las ecuaciones normales.ε^ x β^ y^ E(y) ε=y−E(y) ε^ x ε x
fuente
Ejemplo simple:
El proceso de generación de datos es:
Si nos encontramos con que la regresión, que se pueden conseguir estimaciones un , b 1 y b 2 , y con datos suficientes, que convergerían en un , b 1 y b 2 , respectivamente.a^ b^1 b^2 a b1 b2
(Nota técnica: Necesitamos un poco de aleatoriedad para no comprar exactamente un bollo por cada hamburguesa que compramos en cada visita a la tienda de comestibles. Si hiciéramos esto, y x 2 serían colineales ).x1 x2
Un ejemplo de sesgo variable omitido:
Ahora consideremos el modelo:
Observe que . De ahí Cov ( x 1 , u )ui=b2xi,2+ϵi
¿Es esto cero? Casi seguro que no! ¡La compra de hamburguesas y la compra de bollos x 2 están casi seguramente correlacionadas! ¡Por lo tanto, u y x 1 están correlacionadas!x1 x2 u x1
¿Qué sucede si intentaste ejecutar la regresión?
Si intentaste correr:
fuente
Supongamos que estamos construyendo una regresión del peso de un animal en su altura. Claramente, el peso de un delfín se mediría de manera diferente (en diferentes procedimientos y utilizando diferentes instrumentos) del peso de un elefante o una serpiente. Esto significa que los errores del modelo dependerán de la altura, es decir, la variable explicativa. Podrían ser dependientes de muchas maneras diferentes. Por ejemplo, tal vez tendemos a sobrestimar ligeramente los pesos de los elefantes y subestimar ligeramente a las serpientes, etc.
Entonces, aquí establecimos que es fácil terminar con una situación en la que los errores están correlacionados con las variables explicativas. Ahora, si ignoramos esto y procedemos a la regresión como de costumbre, notaremos que los residuos de regresión no están correlacionados con la matriz de diseño. Esto se debe a que, por diseño, la regresión obliga a los residuos a no estar correlacionados. Tenga en cuenta que los residuales no son los errores , son las estimaciones.de errores Entonces, independientemente de si los errores mismos están correlacionados o no con las variables independientes, las estimaciones de error (residuales) no estarán correlacionadas por la construcción de la solución de ecuación de regresión.
fuente