Definición de validez de una variable instrumental.

8

¿Qué significa exactamente "validez de un instrumento"?

En mi curso de econometría acabamos de definir la validez del instrumento comoE[Z|u]=0, dónde Z es la variable instrumental y ues el término de error de un modelo de regresión univariante. Luego, también hablamos sobre la fuerza de un instrumento, pero estoy bastante seguro de haber entendido correctamente que es un requisito diferente de la validez.

En las aplicaciones, a menudo encuentro la definición de validez como corr(Z,X)0, dónde Z es el instrumento y X es la variable explicativa endógena, más el requisito de que E[Z|u]=0 (como arriba), que generalmente se define como restricción de exclusión.

Estoy un poco confundido y no es tan fácil encontrar el tipo de introducción a los enfoques IV que necesito. ¿Alguien puede resolver estos problemas?

Doctorado
fuente
Esta pregunta podría ser más adecuada para el sitio web de Economía de Stack Exchange.
Mike Hunter
44
@DJohnson, creo que esto podría estar en cualquiera de los dos. Comprender las variables instrumentales es un tema estadístico. Cuando una pregunta puede ser sobre un tema en más de un sitio, normalmente difiero a la elección del OP.
gung - Restablece a Monica
@DJohnson Creo que es apropiado para CV: la estimación IV ciertamente no se limita a la economía / econometría en la aplicación (aunque la técnica se originó dentro de la disciplina econométrica). Los documentos y libros de texto de epidemiología, como el que cité en mi respuesta (y puedo pensar en otros fuera de mi alcance), abordan los métodos de estimación IV y de identificación de variables IV.
Alexis

Respuestas:

6

Los requisitos para que Z sea un instrumento válido para X son:

  • Relevancia = Z necesita estar altamente correlacionada con X
  • Exógeno = Z se correlaciona con Y únicamente a través de su correlación con X; entonces Z no está correlacionado con el error en la ecuación de resultado

La idea principal detrás de IV es que cuando Z cambia, también debería alterar X, pero no la parte problemática de X que está correlacionada con el error. Para obtener el efecto de X en Y, solo estamos usando parte de la variación en X, la parte que es impulsada por la variación en Z.

Dimitriy V. Masterov
fuente
Esta es una buena explicación para los términos de lo que hace la estimación IV: "pero no la parte problemática de X que está correlacionada con el error". Hay un pequeño video gracioso (OK, no tan pequeño, de 30 minutos de duración) de Antonakis en YouTube sobre la endogeneidad, donde se representa como un miasma irregular para enfatizar su naturaleza problemática.
Marqués de Carabas
1
altamente es una palabra demasiado fuerte.Z necesita ser correlacionado con X, con la advertencia de que si la relación es demasiado débil, es probable que se encuentre con los problemas bien conocidos asociados con instrumentos débiles.
Matthew Gunn
@MatthewGunn No especifiqué un umbral exacto, tan altamente es el ojo del espectador. El artículo de Econometrica '97 de Staiger y Stock argumenta que el sesgo de la muestra finita (hacia el límite de OLS) es proporcional a la estadística F de la primera etapa, por lo que más alto siempre es mejor en mi mente.
Dimitriy V. Masterov
Convino en que "altamente" es uno de esos términos abiertos a interpretación y que una correlación más alta es mejor. Sin embargo, para citar a los Rolling Stones, "no siempre puedes obtener lo que quieres, pero si lo intentas en algún momento, es posible que encuentres, obtengas lo que necesitas". : P Yo personalmente escribiría "Zestá suficientemente correlacionado conX: las estimaciones basadas en instrumentos débiles pueden exhibir un sesgo significativo de muestras finitas. "
Matthew Gunn
1
@ user001 No, esta suposición no se puede verificar. La insignificancia en esa especificación te dice muy poco.
Dimitriy V. Masterov
8

Siguiendo la inferencia causal de Hernán y Robins , Capítulo 16: Estimación de variables instrumentales, las variables instrumentales tienen cuatro supuestos / requisitos:

  1. Zdebe estar asociado conX.

  2. Z debe afectar causalmente Y solo a través deX

  3. No debe haber ninguna causa previa de ambos Y y Z.

  4. El efecto deX en Ydebe ser homogéneo Este supuesto / requisito tiene dos formas, débil y fuerte :

    • Débil homogeneidad del efecto de X en Y: El efecto deX en Y no varía según los niveles de Z (es decir Z no puede modificar el efecto de X en Y)
    • Fuerte homogeneidad del efecto de X en Y: El efecto de X en Y es constante en todos los individuos (o cualquiera que sea su unidad de análisis).

Los instrumentos que no cumplen con estos supuestos son generalmente inválidos. (2) y (3) son generalmente difíciles de proporcionar evidencia sólida para (por lo tanto, supuestos ).

La versión fuerte de la condición (4) puede ser una suposición muy poco razonable según la naturaleza de los fenómenos estudiados (por ejemplo, los efectos de los medicamentos en la salud de los individuos generalmente varían de un individuo a otro). La versión débil de la condición (4) puede requerir el uso de estimadores atípicos IV, dependiendo de la circunstancia.

La debilidad del efecto de Z en Xen realidad no tiene una definición formal. Ciertamente, la estimación IV produce resultados sesgados cuando el efecto deZ en X es pequeño en relación con el efecto de U (Confusor no medido) en X, pero no hay un punto duro y rápido, y el sesgo depende del tamaño de la muestra. Hernán y Robins son (respetuosa y constructivamente) críticos de la utilidad de la regresión IV en relación con las estimaciones basadas en el razonamiento causal formal de su enfoque (es decir, el enfoque de razonamiento causal formal de la gente de causalidad contrafactual como Pearl, etc.).

Hernán, MA y Robins, JM (2017). Inferencia causal . Chapman & Hall / CRC.

Alexis
fuente
¿Cómo puede hacer referencia y citar este libro? Según Amazon, no se publicará hasta diciembre de este año.
Mike Hunter
1
@DJohnson Siga mi enlace (ponen a disposición los archivos PDF de preimpresión). ;) Además, tomé su clase hace 15 años y la estaban diseccionando incluso entonces.
Alexis
@Alexis ¿Cuál es la intuición de por qué necesita homogeneidad?
Dimitriy V. Masterov
@ DimitriyV.Masterov Es un argumento sofisticado (véase el punto técnico 16.3 en Hernán y Robins), pero equivale a la insuficiencia de los supuestos / requisitos 1-3 para identificar completamente el efecto causal promedio de X en Y.
Alexis
0

Ambos supuestos se pueden ver al observar el sistema de ecuaciones:

x=γ1+γ2z+ϵy=β1+β2x+γ3z+u
  • La fuerza del instrumento se relaciona con el coeficiente. γ20 y al R2 de esta ecuación (ambas deben ser lo suficientemente altas)

  • La validez se relaciona con el supuesto de queγ3=0es decir z no tiene efecto directo sobre y.

Tenga en cuenta que no podemos probar γ3=0, solo asúmalo, lo que explica por qué se llama una suposición de identificación (= no comprobable).

Matifou
fuente
1
El problema con respecto a la fuerza del instrumento es que "lo suficientemente alto" realmente no tiene una definición formal.
Alexis