¿Qué significan sustancialmente "endogeneidad" y "exogeneidad"?

43

Entiendo que la definición básica de endogeneidad es que no está satisfecho, pero ¿qué significa esto en un sentido del mundo real? Leí el artículo de Wikipedia, con el ejemplo de oferta y demanda, tratando de darle sentido, pero realmente no ayudó. He escuchado la otra descripción de endógeno y exógeno como estar dentro del sistema y estar fuera del sistema y eso todavía no tiene sentido para mí.

X^{'} ϵ = 0

$X'\epsilon=0$

regression causality instrumental-variables usuario25901
fuente

1

Las tres respuestas a continuación son muy buenas (+1 para cada una). Si desea otra fuente de información, este tema aquí: Estimación de lugar de

b_{1} x_{1} + b_{2} x_{2}

$b_1x_1+b_2x_2$

b_{1} x_{1} + b_{2} x_{2} + b_{3} x_{3}

$b_1x_1+b_2x_2+b_3x_3$ , e ilustre con una simulación R.

gung - Restablece a Monica

1

Cuando tiene endogeneidad, su regresión ya no tiene estimadores utilizables o estadísticas de prueba.

Ivan

1

Estoy de acuerdo con @gung, y me gustaría enfatizar que una respuesta completa abordaría "¿Utilizable con qué propósito "? Muchas de las respuestas anteriores abordan muy bien esta pregunta.

Matthew Drury el

@Matthew Me parece que esta publicación intenta responder a la pregunta "¿qué significa esto en un sentido del mundo real?" Sería bueno ver la explicación desarrollada para que la gente pueda apreciarla mejor.

whuber

@whuber No lo sé, es tan corto que realmente no puedo decirlo. Pero estaba pensando, por ejemplo, que el modelo estimado puede ser útil para la predicción (o simplemente la asociación) incluso si tiene endogeneidad, por lo que "ya no tiene estimadores utilizables" parece falso sin aclaración.

Matthew Drury el

69

La respuesta de JohnRos es muy buena. En inglés simple, endogeneidad significa que se equivocó la causalidad. Que el modelo que anotó y estimó no capta adecuadamente la forma en que funciona la causalidad en el mundo real. Cuando escribes:

Y_{i} = β_{0} + β_{1} X_{i} + ϵ_{i}

$\begin{equation} Y_i=\beta_0+\beta_1X_i+\epsilon_i \end{equation}$

Puedes pensar en esta ecuación de varias maneras. Se podría considerar como una forma conveniente de predecir función de los valores deSe podría considerar como una forma conveniente de modelar . En cualquiera de estos casos, no existe la endogeneidad, y no necesita preocuparse por eso. $Y$ $X$ $E\{Y|X\}$

Sin embargo, también puede pensar en la ecuación como una causalidad que encarna. Puede pensar en como la respuesta a la pregunta: "¿Qué le sucedería a si llegara a este sistema y aumentara experimentalmente en 1?" Si quiere pensarlo de esa manera, usar OLS para estimarlo equivale a suponer que: $\beta_1$ $Y$ $X$

$X$ causa $Y$
$\epsilon$ causa $Y$
$\epsilon$ no causa $X$
$Y$ no causa $X$
Nada que cause también causa $\epsilon$ $X$

La falla de cualquiera de 3-5 generalmente dará como resultado , o, no del todo equivalente, . Las variables instrumentales son una forma de corregir el hecho de que se equivocó la causalidad (haciendo otra suposición causal diferente). Un ensayo controlado aleatorio perfectamente realizado es una forma de obligar a 3-5 a ser verdad. Si elige al azar, entonces seguramente no es causado por , o cualquier otra cosa. Los llamados métodos de "experimento natural" son intentos de encontrar circunstancias especiales en el mundo donde 3-5 son verdaderas, incluso cuando no creemos que 3-5 sean verdaderas. $E\{\epsilon|X\}\ne0$ ${\rm Cov}(X,\epsilon)\ne0$ $X$ $Y$ $\epsilon$

En el ejemplo de JohnRos, para calcular el valor salarial de la educación, necesita una interpretación causal de , pero hay buenas razones para creer que 3 o 5 es falso. $\beta_1$

Sin embargo, su confusión es comprensible. Es muy típico en los cursos sobre el modelo lineal que el instructor use la interpretación causal de que di anteriormente, mientras que no introducir causalidad, pretendiendo que "todo es solo estadística". Es una mentira cobarde, pero también es muy común. $\beta_1$

De hecho, es parte de un fenómeno mayor en biomedicina y ciencias sociales. Casi siempre es el caso que estamos tratando de determinar el efecto causal de en --- de eso se trata la ciencia después de todo. Por otro lado, también es casi siempre el caso de que haya alguna historia que pueda contar que lleve a la conclusión de que uno de 3-5 es falso. Entonces, hay una especie de deshonestidad práctica, fluida y equívoca en la que rechazamos las objeciones al decir que solo estamos haciendo un trabajo de asociación y luego escabullimos la interpretación causal en otro lugar (normalmente en las secciones de introducción y conclusión del documento). $X$ $Y$

Si estás realmente interesado, el chico a leer es Judea Perl. James Heckman también es bueno.

Cuenta
fuente

55

+1 Gran explicación y comentario. ¡Bienvenido a nuestro sitio!.

whuber

2

¿Podría indicar qué trabajo de Heckman recomendaría para obtener una comprensión básica y sólida sobre este tema?

Kenny LJ

Tengo una pregunta: cómo verificar si o es verdadero “usando sus datos disponibles (en lugar de su conocimiento del dominio) que pueden no provenir del experimento, es decir , conjunto de datos de observación "? Siento que no hay forma de probar o solo use datos, ya que no es observable, entonces ¿es cierto que la endogeneidad no se puede probar usando datos?

E [ϵ | X] = 0

$E[\epsilon|X]=0$

E [ϵ X] = 0

$E[\epsilon X]=0$

E [ϵ | X] = 0

$E[\epsilon|X]=0$

E [ϵ X] = 0

$E[\epsilon X]=0$

ϵ

$\epsilon$

KevinKim

1

@KevinKim Sí. no es comprobable utilizando estadísticas. no se puede recuperar / estimar excepto haciendo una estimación y luego haciendo residuos. La recuperación solo se puede realizar después de una estimación. La recuperación solo es correcta si la estimación se realiza correctamente. La estimación solo se realiza correctamente si . Entonces, circular. La información de que debe provenir de un conocimiento sustantivo no estadístico. Un ejemplo de esto es que donde son los residuos de OLS. Esto es cierto independientemente de si .

E {ϵ | X} = 0

$E\{\epsilon|X\}=0$

ϵ

$\epsilon$

E {ϵ | X} = 0

$E\{\epsilon|X\}=0$

E {ϵ | X} = 0

$E\{\epsilon|X\}=0$

C o v {X, e} = 0

$Cov\{X,e\}=0$

e

$e$

E {ϵ | X} = 0

$E\{\epsilon|X\}=0$

Bill

2

@KevinKim Eso es correcto. Y no es solo el modelo lineal. Es todo de estadísticas. Tenga en cuenta que cuando alguien dice "la correlación no es causalidad", nunca le dicen qué es la causalidad. La causalidad es teoría y solo puede ser teoría. Incluso un ECA (perfectamente --- y por lo tanto nunca --- realizado) no te dice la causalidad sin teoría.

Bill

18

Dejame usar un ejemplo:

Digamos que quiere cuantificar el efecto (causal) de la educación sobre el ingreso. Toma años de educación y datos de ingresos y retrocede uno contra el otro. ¿Recuperaste lo que querías? ¡Probablemente no! Esto se debe a que los ingresos también son causados por otras cosas además de la educación, pero que están correlacionadas con la educación. Llamémosles "habilidad": podemos asumir con seguridad que los años de educación se ven afectados por la "habilidad", ya que cuanto más hábil sea, más fácil será obtener educación. Por lo tanto, si retrocede los años de educación sobre los ingresos, el estimador del efecto educativo absorbe el efecto de "habilidad" y obtiene una estimación demasiado optimista del retorno a la educación. Es decir, el efecto de la educación sobre el ingreso es (hacia arriba) sesgado porque la educación no es exógena al ingreso.

La endogeneidad es solo un problema si desea recuperar los efectos causales (a diferencia de las meras correlaciones). Además, si puede diseñar un experimento, puede garantizar que por asignación aleatoria. Lamentablemente, esto es típicamente imposible en las ciencias sociales. ${\rm Cov}(X,\epsilon)=0$

JohnRos
fuente

1

Gracias por el ejemplo y la explicación. Todavía no tengo ni idea de qué significan endogeneidad y exogeneidad en inglés simple. ¿Qué quiero decir exactamente cuando digo que una variable es endógena o exógena?

user25901

@ JohnRos Usted escribió "La endogeneidad es solo un problema si desea recuperar los efectos causales", entonces me parece que también es posible decir que: "la exogeneidad implica causalidad" ... Nunca leí esa frase ... Sin embargo, ¿está bien? Si es correcto, me parece que muchos libros de texto, a veces implícitamente, suponen la inferencia causal como objetivos normales.

markowitz

@markowitz: cada vez que inferir sobre coeficientes de regresión, se implica que desea causalidad. Si solo desea predicciones, el valor de los coeficientes realmente no importa, siempre que las predicciones sean buenas. Es cierto que los libros de texto clásicos no hacen esta distinción porque antes la tarea de predicción no es "ciencia básica" sino más bien "ingeniería" (y perdóname por esta generalización cruda)

JohnRos

Gracias JohnRos, déjame hacerte otra pregunta sobre un punto relacionado. El problema de la estimación sesgada de los coeficientes solo tiene sentido en el modelo de regresión de causalidad, mientras que para los objetivos de predicción definitivamente no lo son. ¿Es lo correcto? Pregunto esto porque este punto no está claro en ningún lugar.

markowitz

8

User25901 está buscando una explicación simple y directa del mundo real sobre lo que significan los términos exógeno y endógeno. Responder con ejemplos arcanos o definiciones matemáticas no responde realmente a la pregunta que se hizo.

¿Cómo consigo una comprensión profunda de estos dos términos?

Esto es lo que se me ocurrió:

Exo - externo, externo Endo - interno, interno -geno - originado en

Exógena: una variable es exógena a un modelo si no está determinada por otros parámetros y variables en el modelo, sino que se establece externamente y cualquier cambio en ella proviene de fuerzas externas.

Endógeno: una variable es endógena en un modelo si es, al menos en parte, función de otros parámetros y variables en un modelo.

bearvarina
fuente

77

Estas son definiciones intuitivas razonables, pero no hay necesidad de ser tan despectivo con las otras respuestas.

gung - Restablece a Monica

3

Apelar a la etimología puede ser útil para recordar qué significan los términos técnicos (funciona bien para mí), pero se debe evitar usar la etimología para justificarlos . Muchos términos (en estadística y en otros lugares) se entienden correctamente solo a través del estudio cuidadoso de sus definiciones matemáticas. La comprensión de esta respuesta requiere una concepción clara de los usos previstos de palabras y frases como "determinado por", "establecido externamente", "cambios a", "fuerzas externas" y "función parcialmente [a]", ninguna de las cuales es inmediata aparente o inequívoco.

whuber

6

La regresión OLS, por construcción, da . En realidad eso no es correcto. Da por construcción. Sus residuos estimados no están correlacionados con sus regresores, pero sus residuos estimados son "incorrectos" en cierto sentido. $X'\epsilon=0$ $X'\hat\epsilon=0$

Si el verdadero proceso de generación de datos funciona con , y está correlacionado con , entonces si cabe una regresión dejando fuera . Por supuesto, los residuos estimados serán correlacionado con . Siempre lo son, de la misma manera que . Es solo un hecho matemático. Este es el sesgo variable omitido. $Y=\alpha +\beta X + \gamma Z + {\rm noise}$ $Z$ $X$ $X'{\rm noise} \neq 0$ $Z$ $X$ $\log(e^x)=x$

Digamos que asignan al azar. Tal vez es el día de la semana en que nacen las personas. Tal vez es un experimento real. Es cualquier cosa correlacionada a las que predice . A continuación, puede utilizar la aleatoriedad de para predecir , y luego usar la predicha para ajustar un modelo a . $I$ $Y$ $X$ $I$ $X$ $X$ $Y$

Esos son mínimos cuadrados de dos etapas, que es casi lo mismo que IV.

genérico_usuario
fuente

Según tengo entendido, no es 2SLS una forma de hacer IV, disculpas si me equivoco.

user25901

Los errores estándar de 2SLS son incorrectos. Olvidé por qué o cómo, pero probablemente encontrarías algo si buscas "errores estándar IV 2SLS" en Google. La mayoría de los paquetes de software implementan 2sls con el método solve (t (z)% *% (x)% *% t (z)% *% y

generic_user

1

2SLS errores estándar están equivocados porque la entrada a la etapa final (por ejemplo ) no refleja la variación real de . Los SE corregidos se ajustan para esto.

\hat{X}

$\hat{X}$

X

$X$

MichaelChirico

Gracias. Recién salía de la econometría aplicada cuando escribí esto.

generic_user

-1

En la regresión, queremos capturar el impacto cuantitativo de una variable independiente (que suponemos que es exógena y que no depende de otra cosa) sobre una variable dependiente identificada. Queremos saber qué efecto neto tiene una variable exógena en una variable dependiente, lo que significa que la variable independiente debe estar libre de cualquier influencia de otra variable. Una forma rápida de ver si la regresión sufre el problema de la endogeneidad es verificar la correlación entre la variable independiente y los residuos. Pero esto es solo una verificación aproximada; de lo contrario, se deben realizar pruebas formales de endogeneidad.

Amon Magwiro
fuente

3

Esto no es verdad La correlación entre los residuos y las variables explicativas de una regresión es cero por construcción. Esta no es una prueba de endogeneidad.

Andy

@ Andy, estoy de acuerdo contigo. Entonces mi pregunta es: ¿hay alguna forma de probar la endogeneidad simplemente usando datos? donde no es el residual sino de , es decir, el modelo que creía que genera los datos, por lo que no es observable. Además, creo que Amon quiere decir que puedes comprobar empíricamente si , donde es el residuo. Si es más o menos cierto, entonces puede reclamar que probablemente capture la media condicional y, por lo tanto, no hay mucho problema de endogenidad, estoy ¿Corrijo?

E [ϵ X] = 0

$E[\epsilon X]=0$

ϵ

$\epsilon$

y = b_{0} + b_{1} x + ϵ

$y=b_0+b_1x+\epsilon$

ϵ

$\epsilon$

E [{\hat{e}}_{i} | x] = 0

$E[\hat{e}_i|x]=0$

{\hat{e}}_{i}

$\hat{e}_i$

E [{\hat{e}}_{i} | x] = 0

$E[\hat{e}_i|x]=0$

{\hat{b}}_{0} + {\hat{b}}_{1} x

$\hat{b}_0+\hat{b}_1x$

KevinKim

¿Qué significan sustancialmente "endogeneidad" y "exogeneidad"?

Respuestas: