Probar el teorema TARDÍO de Angrist e Imbens 1994

Supongamos que tenemos un instrumento binario que puede usarse para estimar el efecto de la variable endógena en el resultado . Suponga que el instrumento tiene una primera etapa significativa, se asigna aleatoriamente, satisface la restricción de exclusión y satisface la monotonicidad como se describe en Angrist e Imbens (1994). http://www.jstor.org/discover/10.2307/2951620?uid=3738032&uid=2&uid=4&sid=21104754800073 $Z_i$ $D_i$ $Y_i$

Afirman que la probabilidad de ser un cumplidor ( ) es y la diferencia en los resultados potenciales para la subpoblación de cumplidores es $C_i$

Pr (C_{i}) = Pr (D_{i} = 1 | Z_{i} = 1) - Pr (D_{i} = 1 - Z_{i} = 0)

$\text{Pr}(C_i) = \text{Pr}(D_i = 1|Z_i = 1) - \text{Pr}(D_i = 1 - Z_i = 0)$

E (Y_{i 1} - Y_{i 0} | C_{i}) = \frac{E (Y_{i} | Z_{i} = 1) - E (Y_{i} | Z_{i} = 0)}{E (D_{i} | Z_{i} = 1) - E (D_{i} | Z_{i} = 0)}

$E(Y_{i1} - Y_{i0}|C_i) = \frac{E(Y_i|Z_i=1)-E(Y_i|Z_i=0)}{E(D_i|Z_i=1)-E(D_i|Z_i=0)}$

¿Alguien puede arrojar algo de luz sobre cómo obtienen estas dos expresiones y, lo que es más importante, cómo las combinan? Trato de entender esto a partir del artículo de su revista, pero no puedo entenderlo. Cualquier ayuda en esto sería muy apreciada.

mathematical-statistics econometrics proof instrumental-variables usuario44903
fuente

Respuestas:

En la primera parte, declaró que tiene un instrumento "válido". Esto implica para un tratamiento e instrumento binario que es equivalente a , es decir, el instrumento tiene un efecto sobre si el tratamiento es elegido o no. Esta observación, que también debe afirmarse en el artículo de Angrist e Imbens, es clave para el resto de sus pruebas. Para la primera etapa, suponen que , lo que significa que el número de cumplidores ( es mayor que el de los desafiadores ( ). $Cov(D_i,Z_i) \neq 0$ $P(D_i = 1|Z_i = 1) \neq P(D_i = 1|Z_i = 0)$ $P(D_i = 1|Z_i = 1) > P(D_i = 1|Z_i = 0)$ $C_i)$ $F_i$

Usando la restricción de exclusión (para cada { } tenemos que , es decir, el instrumento no tiene un efecto directo en el resultado) puede escribir el diferencia en la proporción de cumplidores y desafiadores en la población como donde el segundo paso usa independencia para deshacerse del condicionamiento en $z \in$ $0;1$ $Y_{iz} = Y_{i0z} = Y_{i1z}$

\begin{aligned} P (D_{i} = 1 | Z_{i} = 1) - P (D_{i} = 1 | Z_{i} = 0) & = P (D_{i 1} = 1 | Z_{i} = 1) - P (D_{i 0} = 1 | Z_{i} = 0) \\ = P (D_{i 1} = 1) - P (D_{i 0} = 0) \\ = [P (D_{i 1} = 1, D_{i 0} = 0) + P (D_{i 1} = 1, D_{i 0} = 1)] - [P (D_{i 1} = 0, D_{i 0} = 1) + P (D_{i 1} = 1, D_{i 0} = 1)] \\ = P (C_{i}) - P (F_{i}) \end{aligned}

$\begin{align} P(D_i = 1|Z_i = 1) - P(D_i = 1|Z_i = 0) &= P(D_{i1} = 1|Z_i = 1) - P(D_{i0} = 1|Z_i = 0) \newline &= P(D_{i1} = 1) - P(D_{i0} = 0) \newline &= \left[ P(D_{i1} = 1, D_{i0} = 0) + P(D_{i1} = 1, D_{i0} = 1) \right] - \left[ P(D_{i1} = 0, D_{i0} = 1) + P(D_{i1} = 1, D_{i0} = 1) \right] \newline &= P(C_i) – P(F_i) \end{align}$

Z_{i}

$Z_i$ porque los resultados potenciales son independientes del instrumento. El tercer paso usa la ley de probabilidad total. En el último paso, solo necesita usar la monotonicidad, que básicamente supone que los desafiantes no existen, por lo que y obtiene Este sería su coeficiente de primera etapa en una regresión 2SLS. La suposición de monotonicidad es crucial para esto y uno debe pensar detenidamente sobre las posibles razones por las cuales podría violarse (sin embargo, la monotonicidad puede ser relajada, ver por ejemplo de Chaisemartin (2012) "Todo lo que necesita es TARDE" ).

P (F_{i}) = 0

$P(F_i) = 0$

P (C_{i}) = P (D_{i} = 1 | Z_{i} = 1) - P (D_{i} = 1 | Z_{i} = 0) .

$P(C_i) = P(D_i = 1|Z_i = 1) - P(D_i = 1|Z_i = 0).$

La segunda parte de la prueba sigue un camino similar. Para esto, debe recordar que el estado de tratamiento observado es porque no puede observar ambos resultados potenciales para el mismo individuo. De esta manera, puede relacionar el resultado observado con el resultado potencial, el estado del tratamiento y el instrumento como Para la segunda parte de la prueba, tome la diferencia en el resultado esperado con el instrumento encendido y encendido, y use la representación previa de los resultados observados y la restricción de exclusión en El primer paso para obtener:

D_{i} = Z_{i} D_{i 1} + (1 - Z_{i}) D_{i 0}

$D_i = Z_iD_{i1} + (1-Z_i)D_{i0}$

Y_{i} = (1 - Z_{i}) (1 - D_{i}) Y_{i 00} + Z_{i} (1 - D_{i}) Y_{i 10} + (1 - Z_{i}) D_{i} Y_{i 01} + Z_{i} D_{i} Y_{i 11}

$Y_i = (1-Z_i)(1-D_i)Y_{i00} + Z_i(1-D_i)Y_{i10} + (1-Z_i)D_iY_{i01} + Z_iD_iY_{i11}$

\begin{aligned} E (Y_{i} | Z_{i} = 1) - E (Y_{i} | Z_{i} = 0) & = E (Y_{i 1} D_{i} + Y_{i 0} (1 - D_{i}) | Z_{i} = 0) \\ - E (Y_{i 1} D_{i} + Y_{i 0} (1 - D_{i}) | Z_{i} = 1) \\ = E (Y_{i 1} D_{i 1} + Y_{i 0} (1 - D_{i 1}) | Z_{i} = 1) \\ - E (Y_{i 1} D_{i 0} + Y_{i 0} (1 - D_{i 0}) | Z_{i} = 0) \\ = E (Y_{i 1} D_{i 1} + Y_{i 0} (1 - D_{i 1})) \\ - E (Y_{i 1} D_{i 0} + Y_{i 0} (1 - D_{i 0})) \\ = E ((Y_{i 1} - Y_{i 0}) (D_{i 1} - D_{i 0})) \\ = E (Y_{i 1} - Y_{i 0} | D_{i 1} - D_{i 0} = 1) P (D_{i 1} - D_{i 0} = 1) \\ - E (Y_{i 1} - Y_{i 0} | D_{i 1} - D_{i 0} = - 1) P (D_{i 1} - D_{i 0} = - 1) \\ = E (Y_{i 1} - Y_{i 0} | C_{i}) P (C_{i}) - E (Y_{i 1} - Y_{i 0} | F_{i}) P (F_{i}) \\ = E (Y_{i 1} - Y_{i 0} | C_{i}) P (C_{i}) \end{aligned}

$\begin{align} E(Y_i|Z_i = 1) – E(Y_i|Z_i=0) &= E(Y_{i1}D_i + Y_{i0}(1-D_i)|Z_i=0) \newline &- E(Y_{i1}D_i + Y_{i0}(1-D_i)|Z_i=1)\newline &= E(Y_{i1}D_{i1} + Y_{i0}(1-D_{i1})|Z_i=1) \newline &- E(Y_{i1}D_{i0} + Y_{i0}(1-D_{i0})|Z_i=0) \newline &= E(Y_{i1}D_{i1} + Y_{i0}(1-D_{i1})) \newline &- E(Y_{i1}D_{i0} + Y_{i0}(1-D_{i0})) \newline &= E((Y_{i1}-Y_{i0})(D_{i1}-D_{i0})) \newline &= E(Y_{i1}-Y_{i0}|D_{i1}-D_{i0}=1)P(D_{i1}-D_{i0} = 1) \newline &- E(Y_{i1}-Y_{i0}|D_{i1}-D_{i0}=-1)P(D_{i1}-D_{i0} = -1) \newline &= E(Y_{i1}-Y_{i0}|C_i)P(C_i) - E(Y_{i1}-Y_{i0}|F_i)P(F_i) \newline &= E(Y_{i1}-Y_{i0}|C_i)P(C_i) \end{align}$

Ahora, esto fue bastante trabajo, pero no es tan malo si conoce los pasos que debe seguir. Para la segunda línea, use nuevamente la restricción de exclusión para escribir los posibles estados de tratamiento. En la tercera línea, usa la independencia para deshacerte del condicionamiento en como antes. En la cuarta línea solo factoriza los términos. La quinta línea usa la ley de las expectativas iteradas. La última línea surge debido al supuesto de monotonicidad, es decir, . Luego solo necesita dividir como último paso y llega a $Z_i$ $P(F_i)=0$

\begin{aligned} E (Y_{i 1} - Y_{i 0} | C_{i}) & = \frac{E (Y_{i} | Z_{i} = 1) - E (Y_{i} | Z_{i} = 0)}{P (C_{i})} \\ = \frac{E (Y_{i} | Z_{i} = 1) - E (Y_{i} | Z_{i} = 0)}{P (D_{i} = 1 | Z_{i} = 1) - P (D_{i} = 1 | Z_{i} = 0)} \\ = \frac{E (Y_{i} | Z_{i} = 1) - E (Y_{i} | Z_{i} = 0)}{E (D_{i} | Z_{i} = 1) - E (D_{i} | Z_{i} = 0)} \end{aligned}

$\begin{align} E(Y_{i1}-Y_{i0}|C_i) &= \frac{E(Y_i|Z_i = 1) – E(Y_i|Z_i=0)}{P(C_i)} \newline &= \frac{E(Y_i|Z_i = 1) – E(Y_i|Z_i=0)}{P(D_i = 1|Z_i = 1) - P(D_i = 1|Z_i = 0)} \newline &= \frac{E(Y_i|Z_i = 1) – E(Y_i|Z_i=0)}{E(D_i|Z_i = 1) - E(D_i|Z_i = 0)} \end{align}$ dado que y son binarios. Esto debería mostrar cómo combina las dos pruebas y cómo llegan a la expresión final.

D_{i}

$D_i$

Z_{i}

$Z_i$

Andy
fuente

Hay cuatro tipos de personas:

Never Takers (NT): para ambos valores de Z $D = 0$
Desafiadores (DF): cuando y cuando $D=0$ $Z =1$ $D=1$ $Z =0$
Cumplidores (C): cuando y cuando $D=1$ $Z =1$ $D=0$ $Z =0$
Siempre Tomadores (AT): para ambos valores de . $D =1$ $Z$

La fórmula para el estimador de Wald es:

Δ_{I V} = \frac{E (Y | Z = 1) - E (Y | Z = 0)}{P r (D = 1 | Z = 1) - P r (D = 1 | Z = 0)}

$\Delta_{IV} = \frac{E(Y|Z=1)−E(Y|Z=0)}{Pr(D=1|Z =1)−Pr(D=1|Z =0)}$

Usando nuestros 4 grupos y las reglas básicas de probabilidad, podemos reescribir las dos piezas del numerador como: y

E (Y | Z = 1) = E (Y_{1} | A T) \cdot P r (A T) + E (Y_{1} | C) \cdot P r (C) + E (Y_{0} | D F) \cdot P r (D F) + E (Y_{0} | N T) \cdot P r (N T)

E (Y | Z = 0) = E (Y_{1} | A T) \cdot P r (A T) + E (Y_{0} | C) \cdot P r (C) + E (Y_{1} | D F) \cdot P r (D F) + E (Y_{0} | N T) \cdot P r (N T)

Los dos términos del denominador son: y

P r (D = 1 | Z = 1) = P r (D = 1 | Z = 1, A T) \cdot P r (A T) + P r (D = 1 | Z = 1, C) \cdot P r (C) = P r (A T) + P r (C)

$Pr(D=1|Z =1)=Pr(D=1|Z =1,AT) \cdot Pr(AT)+Pr(D=1|Z =1,C) \cdot Pr(C) \\ =Pr(AT)+Pr(C)$

P r (D = 1 | Z = 0) = P r (D = 1 | Z = 0, A T) \cdot P r (A T) + P r (D = 1 | Z = 0, D F) \cdot P r (D F) = P r (A T) + P r (D F)

$Pr(D=1|Z =0)=Pr(D=1|Z = 0,AT) \cdot Pr(AT)+Pr(D=1|Z =0,DF) \cdot Pr(DF) \\ =Pr(AT)+Pr(DF)$

El primero de estos corresponde a su primera expresión.

Volviendo a la fórmula de Wald y conectándolos, vemos que algunos de estos términos se cancelan en la resta, dejando

Δ_{I V} = \frac{[E (Y_{1} | C) \cdot P r (C) + E (Y_{0} | D) \cdot P r (D)] - [E (Y_{0} | C) \cdot P r (C) + E (Y_{1} | D F) \cdot P r (D F)]}{P r (C) - P r (D F)} .

$\Delta_{IV} =\frac{[E(Y_1 |C) \cdot Pr(C)+E(Y_0 |D) \cdot Pr(D)]−[E(Y_0 |C) \cdot Pr(C)+E(Y_1 |DF) \cdot Pr(DF)]}{Pr(C) − Pr(DF)}.$ Esto produce una idea. El estimador Wald IV es un promedio ponderado del efecto del tratamiento en los cumplidores y lo negativo del efecto del tratamiento en los desafiadores.

Ahora hacemos dos suposiciones. Primero, asumimos la monotonicidad, de modo que el instrumento solo puede aumentar o disminuir la probabilidad de participación. Esto significa que . El supuesto de monotonicidad es equivalente a asumir un modelo de función de índice para el tratamiento. La segunda suposición es que hay algunos cumplidores, es decir que . El comportamiento de algunos individuos debe ser alterado por el instrumento. Este debería ser el caso si el instrumento es relevante. Estas dos suposiciones producen $Pr(DF) = 0$ $Pr(C) > 0$

Δ_{I V} = \frac{E (Y_{1} | C) \cdot P r (C) - E (Y_{0} | C) \cdot P r (C)}{P r (C)} = E (Y_{1} | C) - E (Y_{0} | C) = L A T E .

$\Delta_{IV} =\frac{E(Y_1 |C) \cdot Pr(C)−E(Y_0 |C) \cdot Pr(C)}{Pr(C)}=E(Y_1 |C)−E(Y_0 |C)=LATE.$

Dimitriy V. Masterov
fuente

+1, creo que las dos respuestas se complementan muy bien. Este muestra más la intuición del estimador de Wald y de dónde provienen los supuestos en lugar de simplemente utilizarlos de una manera puramente técnica

Andy