2SLS pero Probit de segunda etapa

15

Estoy tratando de usar el análisis de variables instrumentales para inferir causalidad con datos observacionales.

Me he encontrado con una regresión de mínimos cuadrados de dos etapas (2SLS) que probablemente aborde el problema de endogeneidad en mi investigación. Sin embargo, me gustaría que la primera etapa sea OLS y que la segunda etapa sea probit dentro del 2SLS. Basado en mi lectura y búsqueda, he visto a investigadores usar 2SLS o probit de primera etapa y OLS de segunda etapa, pero no al revés, que es lo que estoy tratando de lograr.

Actualmente estoy usando Stata y el comando ivreg en Stata es para un 2SLS directo.

Verónica
fuente

Respuestas:

12

Su caso es menos problemático que al revés. Las expectativas y los operadores de proyecciones lineales pasan por una primera etapa lineal (por ejemplo, OLS) pero no por etapas no lineales como probit o logit. Por lo tanto, no es un problema si primero regresa su variable endógena continua en su (s) instrumento (s) , X_i = a + Z'_i \ pi + \ eta_i y luego usa los valores ajustados en una segunda etapa probit para estimar \ text { Pr} (Y_i = 1 | \ widehat {X} _i) = \ text {Pr} (\ beta \ widehat {X} _i + \ epsilon_i> 0)XZ

Xyo=un+Zyoπ+ηyo
Pr(Yyo=1El |X^yo)=Pr(βX^yo+ϵyo>0 0)

Los errores estándar no serán correctos porque X^yo no es una variable aleatoria sino una cantidad estimada. Puede corregir esto iniciando juntos la primera y la segunda etapa juntas. En Stata esto sería algo así como

// use a toy data set as example
webuse nlswork

// set up the program including 1st and 2nd stage
program my2sls
    reg grade age race tenure
    predict grade_hat, xb

    probit union grade_hat age race
    drop grade_hat
end

// obtain bootstrapped standard errors
bootstrap, reps(100): my2sls

En este ejemplo, queremos estimar el efecto de años de educación sobre la probabilidad de estar en un sindicato. Dado que es probable que los años de educación sean endógenos, lo instrumentamos con años de permanencia en la primera etapa. Por supuesto, esto no tiene ningún sentido desde el punto de vista de la interpretación, pero ilustra el código.

Solo asegúrese de utilizar las mismas variables de control exógeno en la primera y segunda etapa. En el ejemplo anterior, esos son age, racemientras que el instrumento (no sensorial) tenuresolo está allí en la primera etapa.

Andy
fuente
Muchas gracias, esto resolvió el problema que estaba enfrentando. Gracias de nuevo.
Veronica
1
En realidad, la investigación sugiere utilizar un enfoque de función de control para modelos no lineales como un logit, que sería utilizar los residuos de la primera etapa junto con la variable endógena, en lugar de los valores pronosticados. Aunque parece haber avances a menudo, ver: stat.wharton.upenn.edu/~zijguo/…
robin.datadrivers
1
Lo siento, no proporcioné una cita para comparar los dos enfoques para modelos lineales y no lineales. ncbi.nlm.nih.gov/pmc/articles/PMC2494557
robin.datadrivers
-1 Tuve que rechazar esta respuesta, ya que en general no parece posible trasladar la idea del estimador 2SLS a modelos no lineales en la primera y / o segunda etapa. Puede ser cierto para el caso de la primera etapa LS y la segunda etapa probit (@Andy, ¿tiene alguna referencia para apoyar esto?), Pero al menos una advertencia está en orden, ya que he visto a muchas personas haciendo la idea 2SLS en todo tipo de casos de modelos no lineales en primera y segunda etapa y esa es una práctica problemática.
Momo