¿Qué es una variable instrumental?

36

Las variables instrumentales son cada vez más comunes en economía aplicada y estadística. Para los no iniciados, ¿podemos tener algunas respuestas no técnicas a las siguientes preguntas:

¿Qué es una variable instrumental?
¿Cuándo se querría emplear una variable instrumental?
¿Cómo se encuentra o elige una variable instrumental?

regression econometrics instrumental-variables Graham Cookson
fuente

44

¿No crees que el artículo de Wikipedia al respecto es suficiente?

1

Preguntas como esta requieren una respuesta de tipo wiki / blog. Creo que las preguntas no deberían requerir respuestas tan largas.

No estoy seguro de que lo correcto sea simplemente ignorar esta pregunta y remitir al autor de la pregunta al wiki, especialmente durante la versión beta, donde estamos tratando de construir el contenido del sitio. Quizás el autor de la pregunta debería enviar cada una de estas preguntas individualmente para que puedan abordarse mejor.

russellpierce

3

@mbq: el ejemplo de Wikipedia apenas califica como no técnico. Depende mucho de la jerga y las ecuaciones.

rolando2

1

Se ha vuelto común en la economía en algún momento en la década de 1980. Algunos bioestadísticos también han oído hablar de él y lo aplican en el contexto de los modelos de error de medición, donde los instrumentos se consideran estrictamente como mediciones adicionales disponibles. Califican como instrumentos dentro del contexto econométrico más amplio: están correlacionados con la variable de interés y no están correlacionados con su error de medición.

StasK

41

[Lo siguiente tal vez parezca un poco técnico debido al uso de ecuaciones, pero se basa principalmente en los gráficos de flechas para proporcionar la intuición que solo requiere una comprensión muy básica de OLS, así que no te repulses.]

Suponga que desea estimar el efecto causal de sobre dado por el coeficiente estimado para , pero por alguna razón existe una correlación entre su variable explicativa y el término de error: $x_i$ $y_i$ $\beta$

\begin{matrix} y_{i} & = & α & + & β x_{i} & + & ϵ_{i} \\ ↖ & ↗ \\ c o r r \end{matrix}

$\begin{matrix}y_i &=& \alpha &+& \beta x_i &+& \epsilon_i & \\ & && & & \hspace{-1cm}\nwarrow & \hspace{-0.8cm} \nearrow \\ & & & & & corr & \end{matrix}$

Esto podría haber sucedido porque olvidamos incluir una variable importante que también se correlaciona con . Este problema se conoce como sesgo de variables omitidas y su no le dará el efecto causal (ver aquí para más detalles). Este es un caso en el que desea utilizar un instrumento porque solo entonces puede encontrar el verdadero efecto causal. $x_i$ $\widehat{\beta}$

Un instrumento es una nueva variable que no está correlacionada con , pero que se correlaciona bien con y que solo influye en través de , por lo que nuestro instrumento es lo que se llama "exógeno". Es como en este cuadro aquí: $z_i$ $\epsilon_i$ $x_i$ $y_i$ $x_i$

\begin{matrix} z_{yo} & \to & X_{yo} & \to & y_{yo} \\ ↑ & ↗ \\ ϵ_{yo} \end{matrix}

$\begin{matrix} z_i & \rightarrow & x_i & \rightarrow & y_i \newline & & \uparrow & \nearrow & \newline & & \epsilon_i & \end{matrix}$

Entonces, ¿cómo usamos esta nueva variable?
Tal vez recuerdes la idea de tipo ANOVA detrás de la regresión, donde divides la variación total de una variable dependiente en un componente explicado y un componente no explicado. Por ejemplo, si regresas tu en el instrumento, $x_i$

\underset{total variation}{\underset{⏟}{x_{i}}} = \underset{explained variation}{\underset{⏟}{a + π z_{i}}} + \underset{unexplained variation}{\underset{⏟}{η_{i}}}

$\underbrace{x_i}_{\text{total variation}} = \underbrace{a \quad + \quad \pi z_i}_{\text{explained variation}} \quad + \underbrace{\eta_i}_{\text{unexplained variation}}$

entonces usted sabe que la variación explicada aquí es exógena a nuestra ecuación original porque depende solo de la variable exógena . Entonces, en este sentido, dividimos nuestro en una parte que podemos afirmar que es ciertamente exógena (esa es la parte que depende de ) y alguna parte inexplicada que mantiene toda la variación mala que se correlaciona con . Ahora tomamos la parte exógena de esta regresión, la llamamos , $z_i$ $x_i$ $z_i$ $\eta_i$ $\epsilon_i$ $\widehat{x_i}$

x_{i} = \underset{good variation = {\hat{x}}_{i}}{\underset{⏟}{a + π z_{i}}} + \underset{bad variation}{\underset{⏟}{η_{i}}}

$x_i \quad = \underbrace{a \quad + \quad \pi z_i}_{\text{good variation} \: = \: \widehat{x}_i } \quad + \underbrace{\eta_i}_{\text{bad variation}}$

y poner esto en nuestra regresión original:

y_{i} = α + β {\hat{x}}_{i} + ϵ_{i}

$y_i = \alpha + \beta \widehat{x}_i + \epsilon_i$

Ahora bien, como no se correlaciona más con (recuerda, que "han filtrado" esta parte de y lo dejó en ), se puede estimar consistentemente nuestra porque el instrumento nos ha ayudado a romper la correlación entre el explicativo de forma variable y el error. Esta fue una forma de aplicar variables instrumentales. Este método en realidad se llama mínimos cuadrados de 2 etapas, donde nuestra regresión de en se llama "primera etapa" y la última ecuación aquí se llama "segunda etapa". $\widehat{x}_i$ $\epsilon_i$ $x_i$ $\eta_i$ $\beta$ $x_i$ $z_i$

En términos de nuestra imagen original (dejo el para no hacer un lío pero recuerda que está ahí!), En lugar de tomar la ruta directa, pero errónea entre a hemos dado un paso intermedio a través de $\epsilon_i$ $x_i$ $y_i$ $\widehat{x}_i$

\begin{matrix} {\hat{x}}_{i} \\ ↗ & ↓ \\ z_{i} & \to & x_{i} & \to & y_{i} \end{matrix}

$\begin{matrix} & & & & & \widehat{x}_i \newline & & & & \nearrow & \downarrow \newline & z_i & \rightarrow & x_i & \rightarrow & y_i \end{matrix}$

Gracias a esta ligera desviación de nuestro camino hacia el efecto causal, pudimos estimar consistentemente utilizando el instrumento. El costo de esta desviación es que los modelos de variables instrumentales son generalmente menos precisos, lo que significa que tienden a tener errores estándar más grandes. $\beta$

¿Cómo encontramos instrumentos?
Esa no es una pregunta fácil porque necesita hacer un buen caso de por qué su no estaría correlacionado con ; esto no se puede probar formalmente porque el verdadero error no se observa. Por lo tanto, el desafío principal es encontrar algo que pueda ser visto como exógeno, como los desastres naturales, los cambios en las políticas o, a veces, incluso puede realizar un experimento aleatorio. Las otras respuestas tenían algunos muy buenos ejemplos para esto, así que no repetiré esta parte. $z_i$ $\epsilon_i$

Andy
fuente

10

+1 Finalmente estoy agradecido de leer una respuesta detallada en lugar de una lista de referencias o enlaces.

whuber

1

¡Excelente! Les explico esto a mis alumnos más "mnemónicamente" como:

está envenenado / contaminado por factores no observados en

. La regresión de la primera etapa "limpia" / absorbe el veneno de

. Podemos usar la versión "limpia" de

para encontrar el coeficiente causal,

.

x

$x$

ϵ

$\epsilon$

x

$x$

x

$x$

β

$\beta$

MichaelChirico

¿Existe un argumento intuitivo por el cual la estimación de 2SLS para

es consistente? Cuando calculamos

, estamos "filtrando" por parte de

que está correlacionada con el error, pero ¿por qué debería ser que la filtración de no cambia

de una manera que cambia nuestra estimación de

?

β

$\beta$

{\hat{x}}_{i}

$\widehat{x}_i$

x_{i}

$x_i$

x_{i}

$x_i$

β

$\beta$

user35734

Consulte aquí: stats.stackexchange.com/questions/64279/… o puede hacer una nueva pregunta. Espero que esto ayude.

Andy

@ user35734 no es consistente pero asintóticamente consistente.

Vim

17

Como estadístico médico sin conocimientos previos de economía (etr) ics, luché para comprender las variables instrumentales, ya que a menudo me costaba seguir sus ejemplos y no entendía su terminología bastante diferente (por ejemplo, 'endogeneidad', 'forma reducida ',' ecuación estructural ',' variables omitidas '). Aquí hay algunas referencias que encontré útiles (la primera debería estar disponible gratuitamente, pero me temo que las otras probablemente requieran una suscripción):

Staiger D. Variables instrumentales. Seminario cibernético de AcademyHealth sobre métodos de investigación de servicios de salud, marzo de 2002. http://www.dartmouth.edu/~dstaiger/wpapers-Econ.htm
Newhouse JP, McClellan M. Econometría en la investigación de resultados: el uso de variables instrumentales. Revisión anual de salud pública 1998; 19: 17-34. http://dx.doi.org/10.1146/annurev.publhealth.19.1.17
Groenlandia S. Una introducción a las variables instrumentales para epidemiólogos. Revista Internacional de Epidemiología 2000; 29: 722-729. http://dx.doi.org/10.1093/ije/29.4.722
Zohoori N, Savitz DA. Enfoques econométricos de los datos epidemiológicos: Relacionar la endogeneidad y la heterogeneidad no observada con la confusión. Annals of Epidemiology 1997; 7: 251-257. http://dx.doi.org/10.1016/S1047-2797(97)00023-9

También recomendaría el capítulo 4 de:

Angrist JD, Pischke JS. Principalmente econometría inofensiva: el compañero de un empirista. Princeton, NJ: Princeton University Press, 2009. http://www.mostlyharmlesseconometrics.com/

una parada
fuente

11

Aquí hay algunas diapositivas que preparé para un curso de econometría en UC Berkeley. Espero que los encuentre útiles --- Creo que responden sus preguntas y proporcionan algunos ejemplos.

También hay tratamientos más avanzados en las páginas del curso para PS 236 y PS 239 (cursos de métodos de ciencias políticas de nivel de posgrado) en mi sitio web: http://gibbons.bio/teaching.html .

Charlie

Charlie
fuente

El enlace a las diapositivas de Berkeley ya no es válido.

rolando2

7

No técnico (por lo general, eso es todo para lo que soy bueno): hay momentos en que X no solo causa Y, sino que Y también causa X. Una variable instrumental es un dispositivo que puede "limpiar" esta relación desordenada e inconveniente para que se puedan hacer las mejores estimaciones del efecto de X sobre Y.

La variable instrumental se elige en virtud de sus relaciones: es una causa de X, pero, aparte de actuar a través de X, no tiene ningún efecto sobre Y. El instrumento (o instrumentos) se usa en la Etapa Uno para calcular una nueva "versión". "de X, uno que de ninguna manera es una función de Y. Esta nueva X" predicha "se usa en una segunda etapa, en una regresión más estándar, para explicar / predecir Y. De ahí el término Regresión de mínimos cuadrados de dos etapas .

Normalmente, se encuentra la IV en procesos que anulan o están fuera del control de X o Y, como variables que dependen de leyes, políticas, actos de la naturaleza, etc.

rolando2
fuente

¿Qué es una variable instrumental?

Respuestas: