Tengo un conjunto de datos longitudinales de individuos y algunos de ellos estaban sujetos a un tratamiento y otros no. Todos los individuos están en la muestra desde el nacimiento hasta los 18 años y el tratamiento ocurre a alguna edad entre ese rango. La edad del tratamiento puede variar según los casos. Utilizando la coincidencia de puntaje de propensión, me gustaría unir las unidades tratadas y de control en parejas con la coincidencia exacta en el año de nacimiento, de modo que pueda rastrear cada pareja desde su nacimiento hasta la edad de 18 años. En total, hay alrededor de 150 individuos tratados y 4000 no tratados. Después de la correspondencia, la idea es utilizar una estrategia de diferencia en diferencias para estimar el efecto del tratamiento.
El problema que enfrento en este momento es hacer la correspondencia con los datos del panel. Estoy usando el psmatch2
comando de Stata y hago coincidir las características individuales y del hogar con el puntaje de propensión. En general, con los datos del panel habrá diferentes coincidencias óptimas para cada edad. Como ejemplo: si se trata A, B y C son controles, y todos ellos nacieron en 1980, entonces A y B pueden coincidir en 1980 a los 0 años, mientras que A y C se emparejan en 1981 a los 1 años, y así sucesivamente. . También A puede coincidir con sus propios valores de pretratamiento de años anteriores.
Para solucionar este problema, tomé el promedio de todas las variables que varían con el tiempo, de modo que el emparejamiento puede identificar a las personas que en promedio son las más similares durante la duración de la muestra y hago el emparejamiento por separado para cada grupo de edad de 0 a 18 años. Desafortunadamente, esto aún coincide con una unidad de control diferente para cada unidad tratada por grupo de edad.
Si alguien pudiera dirigirme hacia un método para hacer emparejamiento por pares con datos de panel en Stata, esto sería muy apreciado.
No hay forma de hacerlo en Stata o en cualquier otro software que conozca.
Si está tratando de parchear un estimador de coincidencia sesgado con técnicas de datos de panel, este es un enfoque que puede funcionar. Si puede suponer que la coincidencia se ocupa de algunos, pero no de todos, el sesgo de selección, pero que el sesgo permanece en gran medida constante a lo largo del tiempo, puede eliminar la parte del sesgo invariante en el tiempo construyendo estimaciones de coincidencia separadas en cada período y tomando la diferencia.
Heckman, Ichimura, Smith y Todd 1998 Econometrica y Eichler y Lechner 2002 Labor Economics son ejemplos de este enfoque. Por otro lado, 150 observaciones tratadas pueden no ser suficientes para que este enfoque funcione.
fuente
Pasos:
Como Greg lo ha mencionado en detalle, puede utilizar un conjunto de datos de sección transversal, ya sea en medios de pretratamiento o en un período de pretratamiento específico para generar la coincidencia.
Usando todo el panel, asigna variables indicadoras para
a. tratado individualmente
b. Período tratado, este último es igual a cero tan pronto como se produce el tratamiento para el individuo tratado.
Dado que el momento en el que el período de tratamiento trata de 0 a 1 varía de una persona a otra y nunca se convierte en 1 para los no tratados, debe asignar el mismo punto de partida de la coincidencia tratada a la coincidencia no tratada. Esto es intuitivo, pero todavía me gustaría ver una buena referencia que justifique este enfoque que no he encontrado hasta ahora.
La configuración de regresión sería:
donde el término de interacción te da el efecto del tratamiento.
fuente
¿Consideró usar el comando nnmatch ?
Uso este comando y es bastante completo. Tiene en cuenta diferentes algoritmos de coincidencia y también casos, en los que el puntaje de propensión es el mismo para algunos individuos del grupo de control. Por supuesto, el tratamiento de este caso depende del algoritmo de coincidencia, si toma k-vecino más cercano o kernel o lo que sea.
fuente