¿Qué es la diferencia en diferencias?

43

La diferencia en las diferencias ha sido popular durante mucho tiempo como una herramienta no experimental, especialmente en economía. ¿Puede alguien proporcionar una respuesta clara y no técnica a las siguientes preguntas sobre la diferencia en diferencias?

¿Qué es un estimador de diferencia en diferencia?
¿Por qué es útil un estimador de diferencia en diferencia?
¿Podemos realmente confiar en las estimaciones de diferencia en diferencia?

regression econometrics difference-in-difference Graham Cookson
fuente

¿Alguien sabe cómo estimar una diferencia en regresión de diferencia en gretl? ¿Tengo que trabajar con OLS o datos de panel?

3

@Pyca Parece un uso inapropiado de los comentarios allí. Debe publicar una nueva pregunta, con referencia a esta.

chl

66

¿Qué es una diferencia en el estimador de
diferencias? En general, estamos interesados en estimar el efecto de un tratamiento (p. Ej., Estado de la unión, medicación, etc.) en un resultado (p. Ej. Salarios, salud, etc.) como en donde $D_i$ $Y_i$

Y_{i t} = α_{i} + λ_{t} + ρ D_{i t} + X_{i t}^{'} β + ϵ_{i t}

$Y_{it} = \alpha_i + \lambda_t + \rho D_{it} + X'_{it}\beta + \epsilon_{it}$

son efectos fijos individuales (características de los individuos que no cambian con el tiempo),

son efectos fijos en el tiempo,

son covariables que varían en el tiempo, como la edad de los individuos, y

es un término de error. Los individuos y el tiempo están indexados por

y

, respectivamente. Si existe una correlación entre los efectos fijos y

, la estimación de esta regresión a través de OLS estará sesgada dado que los efectos fijos no están controlados. Este es elsesgo variable omitidotípico.

α_{i}

$\alpha_i$

λ_{t}

$\lambda_t$

X_{i t}

$X_{it}$

ϵ_{i t}

$\epsilon_{it}$

i

$i$

t

$t$

D_{i t}

$D_{it}$

$t = 1, 2$ $s = A,B$

ρ = (E [Y_{i s t} | s = A, t = 2] - E [Y_{i s t} | s = A, t = 1]) - (E [Y_{i s t} | s = B, t = 2] - E [Y_{i s t} | s = B, t = 1])

$\rho = (E[Y_{ist}|s=A,t=2] - E[Y_{ist}|s=A,t=1]) - (E[Y_{ist}|s=B,t=2] - E[Y_{ist}|s=B,t=1])$

Gráficamente esto se vería así: ingrese la descripción de la imagen aquí

$A$ $B$

para controlar las covariables
para obtener errores estándar para el efecto del tratamiento para ver si es significativo

$\text{treat}_i$ $A$ $\text{time}_t$ $t=2$

Y_{i t} = β_{1} + β_{2} ({treat}_{i}) + β_{3} ({time}_{t}) + ρ ({treat}_{i} \cdot {time}_{t}) + ϵ_{i t}

$Y_{it} = \beta_1 + \beta_2 (\text{treat}_i) + \beta_3 (\text{time}_t) + \rho (\text{treat}_i \cdot \text{time}_t) + \epsilon_{it}$

$T_{it}$

Y_{i t} = β_{1} γ_{s} + β_{2} λ_{t} + ρ T_{i t} + ϵ_{i t}

$Y_{it} = \beta_1 \gamma_s + \beta_2 \lambda_t + \rho T_{it} + \epsilon_{it}$

$\gamma_s$ $\lambda_t$

$E(Y_{0it}|i,t) = \alpha_i + \lambda_t$ $E(Y_{0it}|s,t) = \gamma_s + \lambda_t$ $s$

¿Podemos confiar en la diferencia en las diferencias?
El supuesto más importante en DiD es el supuesto de tendencias paralelas (ver la figura anterior). ¡Nunca confíe en un estudio que no muestre gráficamente estas tendencias! Los documentos en la década de 1990 podrían haberse salido con la suya, pero hoy en día nuestra comprensión de DiD es mucho mejor. Si no hay un gráfico convincente que muestre las tendencias paralelas en los resultados previos al tratamiento para los grupos de tratamiento y control, tenga cuidado. Si se cumple el supuesto de tendencias paralelas y podemos descartar de manera creíble cualquier otro cambio de variación temporal que pueda confundir el tratamiento, entonces DiD es un método confiable.

Se debe aplicar otra palabra de precaución cuando se trata del tratamiento de errores estándar. Con muchos años de datos, necesita ajustar los errores estándar para la autocorrelación. En el pasado, esto se ha descuidado, pero desde Bertrand et al. (2004) "¿Cuánto debemos confiar en las estimaciones de diferencias en diferencias?" Sabemos que esto es un problema. En el documento proporcionan varios remedios para tratar la autocorrelación. Lo más fácil es agrupar en el identificador de panel individual que permite la correlación arbitraria de los residuos entre series de tiempo individuales. Esto corrige tanto la autocorrelación como la heterocedasticidad.

Para más referencias vea estas notas de Waldinger y Pischke .

Andy
fuente

6

Wikipedia tiene una entrada decente sobre este tema , pero ¿por qué no simplemente usar la regresión lineal que permite interacciones entre sus variables independientes de interés? Esto me parece más interpretable. Luego, puede leer sobre el análisis de pendientes simples (en el libro gratuito de Cohen et al en Google Books) si sus variables de interés son cuantitativas.

Stephen Turner
fuente

0

Es una técnica ampliamente utilizada en econometría para examinar la influencia de cualquier evento exógeno en una serie de tiempo. Elige dos grupos separados de datos relacionados con antes y después del evento estudiado. Una buena referencia para aprender más es el libro Introducción a la Econometría de Wooldridge.

Carlos Dutra
fuente

2

Como una respuesta no técnica concisa, esto es complementario a la respuesta de Andy, pero no creo que cubra "¿Podemos realmente confiar en las estimaciones de diferencia en diferencia?"

Silverfish

0

Cuidadoso:

Vale la pena señalar dos puntos adicionales. Primero, 80 de los 92 documentos originales DD tienen un problema potencial con términos de error agrupados ya que la unidad de observación es más detallada que el nivel de variación (un punto discutido por Donald y Lang [2001]). Solo 36 de estos documentos abordan este problema, ya sea agrupando errores estándar o agregando los datos. En segundo lugar, se utilizan varias técnicas (más o menos informalmente) para tratar la posible endogeneidad de la variable de intervención. Por ejemplo, tres documentos incluyen una variable dependiente retrasada en la ecuación (1), siete incluyen una tendencia temporal específica para los estados tratados, quince trazan algunos gráficos para examinar la dinámica del efecto del tratamiento, tres examinan si hay un "efecto" antes la ley, dos prueban si el efecto es persistente, y once intentan formalmente hacer diferencias triples (DDD) encontrando otro grupo de control. En Bertrand, Duflo y Mullainathan [2002] mostramos que la mayoría de estas técnicas no alivian los problemas de correlación en serie.

(Bertrand, Duflo y Mullainathan 2004, 253)

Nuevo aquí
fuente

¿Qué es la diferencia en diferencias?

Respuestas: