Entiendo que la definición básica de endogeneidad es que no está satisfecho, pero ¿qué significa esto en un sentido del mundo real? Leí el artículo de Wikipedia, con el ejemplo de oferta y demanda, tratando de darle sentido, pero realmente no ayudó. He escuchado la otra descripción de endógeno y exógeno como estar dentro del sistema y estar fuera del sistema y eso todavía no tiene sentido para mí.
regression
causality
instrumental-variables
usuario25901
fuente
fuente
R
.Respuestas:
La respuesta de JohnRos es muy buena. En inglés simple, endogeneidad significa que se equivocó la causalidad. Que el modelo que anotó y estimó no capta adecuadamente la forma en que funciona la causalidad en el mundo real. Cuando escribes:
Puedes pensar en esta ecuación de varias maneras. Se podría considerar como una forma conveniente de predecir función de los valores deSe podría considerar como una forma conveniente de modelar . En cualquiera de estos casos, no existe la endogeneidad, y no necesita preocuparse por eso.X E { Y | X }Y X E{Y|X}
Sin embargo, también puede pensar en la ecuación como una causalidad que encarna. Puede pensar en como la respuesta a la pregunta: "¿Qué le sucedería a si llegara a este sistema y aumentara experimentalmente en 1?" Si quiere pensarlo de esa manera, usar OLS para estimarlo equivale a suponer que: Y Xβ1 Y X
La falla de cualquiera de 3-5 generalmente dará como resultado , o, no del todo equivalente, . Las variables instrumentales son una forma de corregir el hecho de que se equivocó la causalidad (haciendo otra suposición causal diferente). Un ensayo controlado aleatorio perfectamente realizado es una forma de obligar a 3-5 a ser verdad. Si elige al azar, entonces seguramente no es causado por , o cualquier otra cosa. Los llamados métodos de "experimento natural" son intentos de encontrar circunstancias especiales en el mundo donde 3-5 son verdaderas, incluso cuando no creemos que 3-5 sean verdaderas.C o v ( X , ϵ ) ≠ 0 X Y ϵE{ϵ|X}≠0 Cov(X,ϵ)≠0 X Y ϵ
En el ejemplo de JohnRos, para calcular el valor salarial de la educación, necesita una interpretación causal de , pero hay buenas razones para creer que 3 o 5 es falso.β1
Sin embargo, su confusión es comprensible. Es muy típico en los cursos sobre el modelo lineal que el instructor use la interpretación causal de que di anteriormente, mientras que no introducir causalidad, pretendiendo que "todo es solo estadística". Es una mentira cobarde, pero también es muy común.β1
De hecho, es parte de un fenómeno mayor en biomedicina y ciencias sociales. Casi siempre es el caso que estamos tratando de determinar el efecto causal de en --- de eso se trata la ciencia después de todo. Por otro lado, también es casi siempre el caso de que haya alguna historia que pueda contar que lleve a la conclusión de que uno de 3-5 es falso. Entonces, hay una especie de deshonestidad práctica, fluida y equívoca en la que rechazamos las objeciones al decir que solo estamos haciendo un trabajo de asociación y luego escabullimos la interpretación causal en otro lugar (normalmente en las secciones de introducción y conclusión del documento).YX Y
Si estás realmente interesado, el chico a leer es Judea Perl. James Heckman también es bueno.
fuente
Dejame usar un ejemplo:
Digamos que quiere cuantificar el efecto (causal) de la educación sobre el ingreso. Toma años de educación y datos de ingresos y retrocede uno contra el otro. ¿Recuperaste lo que querías? ¡Probablemente no! Esto se debe a que los ingresos también son causados por otras cosas además de la educación, pero que están correlacionadas con la educación. Llamémosles "habilidad": podemos asumir con seguridad que los años de educación se ven afectados por la "habilidad", ya que cuanto más hábil sea, más fácil será obtener educación. Por lo tanto, si retrocede los años de educación sobre los ingresos, el estimador del efecto educativo absorbe el efecto de "habilidad" y obtiene una estimación demasiado optimista del retorno a la educación. Es decir, el efecto de la educación sobre el ingreso es (hacia arriba) sesgado porque la educación no es exógena al ingreso.
La endogeneidad es solo un problema si desea recuperar los efectos causales (a diferencia de las meras correlaciones). Además, si puede diseñar un experimento, puede garantizar que por asignación aleatoria. Lamentablemente, esto es típicamente imposible en las ciencias sociales.Cov(X,ϵ)=0
fuente
User25901 está buscando una explicación simple y directa del mundo real sobre lo que significan los términos exógeno y endógeno. Responder con ejemplos arcanos o definiciones matemáticas no responde realmente a la pregunta que se hizo.
¿Cómo consigo una comprensión profunda de estos dos términos?
Esto es lo que se me ocurrió:
Exo - externo, externo Endo - interno, interno -geno - originado en
Exógena: una variable es exógena a un modelo si no está determinada por otros parámetros y variables en el modelo, sino que se establece externamente y cualquier cambio en ella proviene de fuerzas externas.
Endógeno: una variable es endógena en un modelo si es, al menos en parte, función de otros parámetros y variables en un modelo.
fuente
La regresión OLS, por construcción, da . En realidad eso no es correcto. Da por construcción. Sus residuos estimados no están correlacionados con sus regresores, pero sus residuos estimados son "incorrectos" en cierto sentido.X′ϵ=0 X′ϵ^=0
Si el verdadero proceso de generación de datos funciona con , y está correlacionado con , entonces si cabe una regresión dejando fuera . Por supuesto, los residuos estimados serán correlacionado con . Siempre lo son, de la misma manera que . Es solo un hecho matemático. Este es el sesgo variable omitido.Y=α+βX+γZ+noise Z X X′noise≠0 Z X log(ex)=x
Digamos que asignan al azar. Tal vez es el día de la semana en que nacen las personas. Tal vez es un experimento real. Es cualquier cosa correlacionada a las que predice . A continuación, puede utilizar la aleatoriedad de para predecir , y luego usar la predicha para ajustar un modelo a .I Y X I X X Y
Esos son mínimos cuadrados de dos etapas, que es casi lo mismo que IV.
fuente
En la regresión, queremos capturar el impacto cuantitativo de una variable independiente (que suponemos que es exógena y que no depende de otra cosa) sobre una variable dependiente identificada. Queremos saber qué efecto neto tiene una variable exógena en una variable dependiente, lo que significa que la variable independiente debe estar libre de cualquier influencia de otra variable. Una forma rápida de ver si la regresión sufre el problema de la endogeneidad es verificar la correlación entre la variable independiente y los residuos. Pero esto es solo una verificación aproximada; de lo contrario, se deben realizar pruebas formales de endogeneidad.
fuente