Configuración de datos para diferencias en diferencias

9

Qué configuración es correcta para un modelo de regresión de diferencia en diferencia usando

Yist=α+γsT+λdt+δ(Tdt)+ϵist

donde T es un maniquí que es igual a 1 si la observación es del grupo de tratamiento yd es un maniquí que es igual a 1 en el período de tiempo posterior al tratamiento

1) Muestras aleatorias de cada grupo y tiempo (es decir, 4 muestras aleatorias)

o

2) ¿Datos del panel donde se rastrean las mismas unidades durante ambos períodos?

¿Importa y si no, se puede usar OLS con cualquier caso?

B_Miner
fuente
1
No he visto (1) hecho, el análisis siempre parece = (2). No estoy seguro de por qué lo harías (1). Pero no he visto muchos estudios DID.
Charles
1
Se muestran ejemplos de 1 en la sección 13.2 de Econometría introductoria de Wooldridge
B_Miner del

Respuestas:

19

Una suposición clave de la diferencia en diferencias (DID) es que ambos grupos tienen una tendencia común en la variable de resultado antes del tratamiento. Esto es importante para argumentar que el cambio para el grupo tratado se debe al tratamiento y no porque los dos grupos ya eran diferentes entre sí para empezar.

Si toma muestras de diferentes personas antes y después del tratamiento, esto debilitará el argumento a menos que sus muestras de los grupos de tratamiento y control sean realmente aleatorias y grandes. Por lo tanto, puede suceder que alguien le pregunte: "¿Cómo puede asegurarse de que el efecto se deba al tratamiento y no solo a una muestra de diferentes personas?" - Y eso será difícil de responder. Puede evitar esta pregunta utilizando los datos del panel porque allí realiza un seguimiento de las mismas unidades estadísticas a lo largo del tiempo y, en general, este es el enfoque más sólido.

Para responder a su última pregunta: sí, los datos son importantes, pero seguramente puede usar OLS para estimar su ecuación anterior. Una cosa importante que en el pasado a menudo se pasaba por alto es la estimación correcta de los errores estándar. Si no los corrige, la correlación en serie los subestimará en una buena cantidad y encontrará efectos significativos, aunque probablemente no debería hacerlo. Como referencia y sugerencias sobre cómo abordar este problema, ver Bertrand et al. (2004) "¿Cuánto debemos confiar en las estimaciones de diferencias en diferencias?" .

Como último aspecto, si tiene datos agregados (por ejemplo, a nivel estatal) o si puede agregar fácilmente los suyos y si desea utilizar un método econométrico más reciente que el DID, es posible que desee echar un vistazo a Abadie et al. (2010) "Métodos de control sintéticos para estudios de casos comparativos" . El método de control sintético se usa cada vez más en la investigación actual y existen rutinas bien documentadas para R y Stata. Quizás esto también sea algo interesante para ti.

Andy
fuente
¡Esto es genial Andy! ¿Puedo resumir diciendo que ambas configuraciones de datos son aceptables pero que los datos del panel son más fáciles de argumentar sobre los supuestos? OLS puede ajustar ambas cosas, pero los errores estándar de (especialmente la configuración de datos del panel, supongo) son cuestionables debido a la posible correlación en serie. ¿Sería una buena solución una configuración de panel con Newey West SE?
B_Miner
66
Sí, para el primer tipo de datos necesita más y más suposiciones fuertes. Para los errores estándar, la corrección Newey West debería funcionar. En realidad, es análogo a uno de los métodos de corrección propuestos por Bertrand et al. (usan errores estándar agrupados). Un método más reciente utiliza el bootstrap que funciona bastante bien (ver rbnz.govt.nz/research_and_publications/seminars_and_workshops/… ). ¡Espero que esto ayude!
Andy