22

La primera oración de esta página wiki afirma que "en econometría, un problema de endogeneidad ocurre cuando una variable explicativa se correlaciona con el término de error. 1 "

Mi pregunta es: ¿cómo puede suceder esto? ¿No se elige la regresión beta de modo que el término de error sea ortogonal al espacio de la columna de la matriz de diseño?

regression ciudadano del norte
fuente

99

La regresión beta se elige de modo que el residuo sea ortogonal al espacio de la columna de la matriz de diseño. ¡Y esto puede dar una estimación horrible de la verdadera beta si el término de error no es ortogonal al espacio de la columna de la matriz de diseño! (es decir, si su modelo no satisface los supuestos necesarios para estimar consistentemente los coeficientes por regresión).

Matthew Gunn

3

La ortogonalidad del término de error y el espacio de la columna de la matriz de diseño no es una propiedad de su método de estimación (por ejemplo, regresión de mínimos cuadrados ordinarios), es una propiedad del modelo (por ejemplo, )

y_{i} = a + b x_{i} + ϵ_{i}

$y_i = a + b x_i + \epsilon_i$

Matthew Gunn

Creo que su edición debería ser una nueva pregunta porque parece haber cambiado sustancialmente lo que está pidiendo. Siempre puedes vincular a este. (Creo que también debe redactarlo mejor: cuando escribe "¿cuál sería el efecto", entonces no tengo claro el efecto de qué ?) Tenga en cuenta que hacer una nueva pregunta generalmente genera más atención, lo que sería una ventaja para que puedas editar uno existente.

Silverfish

28

Está combinando dos tipos de término "error". Wikipedia en realidad tiene un artículo dedicado a esta distinción entre errores y residuos .

En una regresión OLS, los residuos (sus estimaciones del término de error o son de hecho la garantía de ser correlacionado con las variables de predicción, suponiendo que la regresión contiene un término de intersección. $\hat \varepsilon$

Pero los errores "verdaderos" pueden estar correlacionados con ellos, y esto es lo que cuenta como endogeneidad. $\varepsilon$

Para simplificar las cosas, considere el modelo de regresión (puede ver esto descrito como el " proceso generador de datos " subyacente o "DGP", el modelo teórico que suponemos que genera el valor de ): $y$

y_{i} = β_{1} + β_{2} x_{i} + ε_{i}

$y_i = \beta_1 + \beta_2 x_i + \varepsilon_i$

En principio, no hay ninguna razón por la cual no pueda correlacionarse con en nuestro modelo, por mucho que preferiríamos que no violara los supuestos estándar de OLS de esta manera. Por ejemplo, podría ser que depende de otra variable que se ha omitido de nuestro modelo, y esto se ha incorporado al término de perturbación ( es donde agrupamos todas las cosas que no sean que afectan a ). Si esta variable omitida también se correlaciona con , entonces a su vez se correlacionará con y tenemos endogeneidad (en particular, sesgo de variable omitida ). $x$ $\varepsilon$ $y$ $\varepsilon$ $x$ $y$ $x$ $\varepsilon$ $x$

Cuando estima su modelo de regresión en los datos disponibles, obtenemos

y_{i} = {\hat{β}}_{1} + {\hat{β}}_{2} x_{i} + {\hat{ε}}_{i}

$y_i = \hat \beta_1 + \hat \beta_2 x_i + \hat \varepsilon_i$

Debido a la forma de MCO trabajos *, los residuos será correlacionada con . Pero eso no significa que tengamos endógeno evitado - sólo significa que no podemos detectar mediante el análisis de la correlación entre y , que será (hasta error numérico) cero. Y debido a que se han violado los supuestos de OLS, ya no tenemos garantizadas las buenas propiedades, como la imparcialidad, disfrutamos mucho de OLS. Nuestra estimación estará sesgada. $\hat \varepsilon$ $x$ $\hat \varepsilon$ $x$ $\hat \beta_2$

El hecho de que es correlacionado con sigue inmediatamente de las ecuaciones "normales" que usamos para elegir nuestras mejores estimaciones de los coeficientes. $(*)$ $\hat \varepsilon$ $x$

Si no está acostumbrado a la configuración de la matriz, y me apego al modelo bivariado utilizado en mi ejemplo anterior, entonces la suma de los residuos al cuadrado es y para encontrar el óptimo y $S(b_1, b_2) = \sum_{i=1}^n \varepsilon_i^2 = \sum_{i=1}^n (y_i-b_1 - b_2 x_i)^2$ $b_1 = \hat \beta_1$ que minimizan esto encontramos las ecuaciones normales, en primer lugar la condición de primer orden para la intersección estimada: $b_2 = \hat \beta_2$

\frac{\partial S}{\partial b_{1}} = \sum_{i = 1}^{n} - 2 (y_{i} - b_{1} - b_{2} x_{i}) = - 2 \sum_{i = 1}^{n} {\hat{ε}}_{i} = 0

$\frac{\partial S}{\partial b_1} = \sum_{i=1}^n -2(y_i-b_1 - b_2 x_i) = -2 \sum_{i=1}^n \hat \varepsilon_i = 0$

lo que muestra que la suma (y por lo tanto la media) de los residuos es cero, por lo que la fórmula de la covarianza entre y cualquier variable entonces se reduce a $\hat \varepsilon$ $x$ . Vemos que esto es cero al considerar la condición de primer orden para la pendiente estimada, que es que $\frac{1}{n-1} \sum_{i=1}^n x_i \hat \varepsilon_i$

\frac{\partial S}{\partial b_{2}} = \sum_{i = 1}^{n} - 2 x_{i} (y_{i} - b_{1} - b_{2} x_{i}) = - 2 \sum_{i = 1}^{n} x_{i} {\hat{ε}}_{i} = 0

$\frac{\partial S}{\partial b_2} = \sum_{i=1}^n -2 x_i (y_i-b_1 - b_2 x_i) = -2 \sum_{i=1}^n x_i \hat \varepsilon_i = 0$

Si está acostumbrado a trabajar con matrices, podemos generalizar esto a regresión múltiple definiendo ; la condición de primer orden para minimizar en óptima es: $S(b) = \varepsilon' \varepsilon = (y-Xb)'(y-Xb)$ $S(b)$ $b = \hat \beta$

\frac{d S}{d b} (\hat{β}) = \frac{d}{d b} (y^{'} y - b^{'} X^{'} y - y^{'} X b + b^{'} X^{'} X b) |_{b = \hat{β}} = - 2 X^{'} y + 2 X^{'} X \hat{β} = - 2 X^{'} (y - X \hat{β}) = - 2 X^{'} \hat{ε} = 0

$\frac{dS}{db}(\hat\beta) = \frac{d}{db}\bigg(y'y - b'X'y - y'Xb + b'X'Xb\bigg)\bigg|_{b=\hat\beta} = -2X'y + 2X'X\hat\beta = -2X'(y - X\hat\beta) = -2X'\hat \varepsilon = 0$

Esto implica cada fila de , y por lo tanto cada columna de , es ortogonal a . Entonces, si la matriz de diseño tiene una columna de unos (lo que ocurre si el modelo tiene un término de intersección), debemos tener por lo que los residuos tienen cero suma y media cero. La covarianza entre y cualquier variable es de nuevo $X'$ $X$ $\hat \varepsilon$ $X$ $\sum_{i=1}^n \hat \varepsilon_i = 0$ $\hat \varepsilon$ $x$ y para cualquier variableincluido en nuestro modelo que conocemos esta suma es cero, porque es ortogonal a cada columna de la matriz de diseño. Por lo tanto no es cero covarianza y la correlación cero, entre y cualquier variable predictor. $\frac{1}{n-1} \sum_{i=1}^n x_i \hat \varepsilon_i$ $x$ $\hat \varepsilon$ $\hat \varepsilon$ $x$

Si prefiere una visión más geométrica de las cosas , nuestro deseo de que mentiras tan cerca como sea posible en una especie de Pitágoras de forma , y el hecho de que está limitada al espacio columna de la matriz de diseño , dictan debería ser la proyección ortogonal de la observada en ese espacio de columna. Por lo tanto el vector de residuos es ortogonal a cada columna de , incluyendo el vector de unos $\hat y$ $y$ $\hat y$ $X$ $\hat y$ $y$ $\hat \varepsilon = y - \hat y$ $X$ $\mathbf{1_n}$ si se incluye un término de intercepción en el modelo. Como antes, esto implica que la suma de los residuos es cero, por lo que la ortogonalidad del vector residual con las otras columnas de asegura que no está correlacionada con cada uno de esos predictores. $X$

Vectores en el espacio sujeto de regresión múltiple

Pero nada de lo que hemos hecho aquí dice nada sobre los verdaderos errores . Suponiendo que hay un término de intersección en nuestro modelo, los residuos solamente están correlacionadas con como consecuencia matemática de la forma en que elegimos para estimar los coeficientes de regresión . La forma en que seleccionamos nuestra afecta nuestros valores predichos y por lo tanto nuestros residuos . Si elegimos por MCO, hay que resolver las ecuaciones normales y estos valer que nuestros residuos estimados $\varepsilon$ $\hat \varepsilon$ $x$ $\hat \beta$ $\hat \beta$ $\hat y$ $\hat \varepsilon = y - \hat y$ $\hat \beta$ están correlacionados con. Nuestra elección de afecta pero noy por lo tanto no impone condiciones a los verdaderos errores. Sería un error pensar que ha de alguna manera "heredada" de su uncorrelatedness conde la suposición de que OLSdebe ser correlacionada con. La falta de correlación surge de las ecuaciones normales. $\hat \varepsilon$ $x$ $\hat \beta$ $\hat y$ $\mathbb{E}(y)$ $\varepsilon = y - \mathbb{E}(y)$ $\hat \varepsilon$ $x$ $\varepsilon$ $x$

Lepisma
fuente

1

hace su

media de regresión utilizando datos de población? ¿O qué significa precisamente?

y_{i} = β_{1} + β_{2} x_{i} + ε_{i}

$y_i = \beta_1 + \beta_2 x_i + \varepsilon_i$

ciudadano del norte

@ user1559897 Sí, algunos libros de texto llamarán a esto la "línea de regresión de población" o PRL. Es el modelo teórico subyacente para la población; También puede ver esto llamado el "proceso de generación de datos" en algunas fuentes. (Tiendo a ser un poco cuidadoso al decir que es la "regresión sobre la población" ... si tienes una población finita, por ejemplo, 50 estados de los EE. UU. En la que realizas la regresión, entonces esto no es del todo cierto Si realmente está ejecutando una población en algunos datos en su software, realmente está hablando de la versión estimada de la regresión, con los "sombreros")

Silverfish

Creo que veo lo que estás diciendo. Si entiendo que correctamente, el término de error en el modelo

podría tener no cero expectativa así porque es un proceso de generación teórico, no una regresión por mínimos cuadrados.

y_{i} = β_{1} + β_{2} x_{i} + ε_{i}

$y_i = \beta_1 + \beta_2 x_i + \varepsilon_i$

ciudadano del norte

Esta es una gran respuesta desde la perspectiva de inferencia estadística. ¿Cuál cree que sería el efecto si la precisión de la predicción es la principal preocupación? Ver la edición de la publicación.

ciudadano del norte

16

Ejemplo simple:

Sea la cantidad de hamburguesas que compro en la visita $x_{i,1}$ $i$
Sea la cantidad de bollos que compro. $x_{i,2}$
Sea el precio de una hamburguesa $b_1$
Sea el precio de un bollo. $b_2$
Independientemente de mis compras de hamburguesas y bollos, permítanme gastar una cantidad aleatoria donde es un escalar y es una variable aleatoria media cero. Tenemos . $a + \epsilon_i$ $a$ $\epsilon_i$ $\operatorname{E}[\epsilon_i | X] = 0$
Let ser mi gasto en un viaje a la tienda de comestibles. $y_i$

El proceso de generación de datos es:

y_{i} = a + b_{1} x_{i, 1} + b_{2} x_{i, 2} + ϵ_{i}

$y_i = a + b_1x_{i,1} + b_2x_{i,2} + \epsilon_i$

Si nos encontramos con que la regresión, que se pueden conseguir estimaciones , y , y con datos suficientes, que convergerían en , y , respectivamente. $\hat{a}$ $\hat{b}_1$ $\hat{b}_2$ $a$ $b_1$ $b_2$

(Nota técnica: Necesitamos un poco de aleatoriedad para no comprar exactamente un bollo por cada hamburguesa que compramos en cada visita a la tienda de comestibles. Si hiciéramos esto, y serían colineales ). $x_1$ $x_2$

Un ejemplo de sesgo variable omitido:

Ahora consideremos el modelo:

y_{i} = a + b_{1} x_{i, 1} + u_{i}

$y_i = a + b_1x_{i,1} + u_i$

Observe que . De ahí $u_i = b_2x_{i,2} + \epsilon_i$

\begin{aligned} Cov (x_{1}, u) & = Cov (x_{1}, b_{2} x_{2} + ϵ) \\ = b_{2} Cov (x_{1}, x_{2}) + Cov (x_{1}, ϵ) \\ = b_{2} Cov (x_{1}, x_{2}) \end{aligned}

$\begin{align*} \operatorname{Cov}(x_{1}, u) &= \operatorname{Cov}(x_1,b_2x_2 + \epsilon )\\ &= b_2 \operatorname{Cov}(x_{1},x_2) + \operatorname{Cov}(x_{1},\epsilon) \\ &= b_2 \operatorname{Cov}(x_{1},x_2) \end{align*}$

¿Es esto cero? Casi seguro que no! ¡La compra de hamburguesas y la compra de bollos están casi seguramente correlacionadas! ¡Por lo tanto, y están correlacionadas! $x_1$ $x_2$ $u$ $x_1$

¿Qué sucede si intentaste ejecutar la regresión?

Si intentaste correr:

y_{i} = \hat{a} + {\hat{b}}_{1} x_{i, 1} + {\hat{u}}_{i}

$y_i = \hat{a} + \hat{b}_1 x_{i,1} + \hat{u}_i$

$\hat{b}_1$ $b_1$ $\hat{a}, \hat{b}, \hat{u}$ $\hat{u}$ $x_1$ $u$ $x_1$

$\hat{b}_1$

Matthew Gunn
fuente

Me gusta tu ejemplo de pan de hamburguesa. Explicó el problema desde la perspectiva de la inferencia estadística, es decir, inferir el efecto de la hamburguesa en el precio. ¿Me pregunto cuál sería el efecto si todo lo que me importa es la predicción, es decir, la predicción MSE en un conjunto de datos de prueba? La intuición es que no va a ser tan bueno, pero ¿hay alguna teoría para hacerlo más preciso? (Esto introdujo más sesgo, pero menos varianza, por lo que el efecto general no es evidente para mí.)

Ciudadano del norte

1

{\hat{b}}_{1}

$\hat{b}_1$

L_{1}

$L_1$

b_{1}

$b_1$

b_{2}

$b_2$

Matthew Gunn

3

Supongamos que estamos construyendo una regresión del peso de un animal en su altura. Claramente, el peso de un delfín se mediría de manera diferente (en diferentes procedimientos y utilizando diferentes instrumentos) del peso de un elefante o una serpiente. Esto significa que los errores del modelo dependerán de la altura, es decir, la variable explicativa. Podrían ser dependientes de muchas maneras diferentes. Por ejemplo, tal vez tendemos a sobrestimar ligeramente los pesos de los elefantes y subestimar ligeramente a las serpientes, etc.

Entonces, aquí establecimos que es fácil terminar con una situación en la que los errores están correlacionados con las variables explicativas. Ahora, si ignoramos esto y procedemos a la regresión como de costumbre, notaremos que los residuos de regresión no están correlacionados con la matriz de diseño. Esto se debe a que, por diseño, la regresión obliga a los residuos a no estar correlacionados. Tenga en cuenta que los residuales no son los errores , son las estimaciones.de errores Entonces, independientemente de si los errores mismos están correlacionados o no con las variables independientes, las estimaciones de error (residuales) no estarán correlacionadas por la construcción de la solución de ecuación de regresión.

Aksakal
fuente

¿Cómo puede correlacionarse el término de error de regresión con las variables explicativas?

Respuestas:

Ejemplo simple:

Un ejemplo de sesgo variable omitido:

¿Qué sucede si intentaste ejecutar la regresión?