He leído que el estimador 2SLS sigue siendo consistente incluso con la variable endógena binaria ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ). En la primera etapa, se ejecutará un modelo de tratamiento probit en lugar de un modelo lineal.
¿Hay alguna prueba formal que demuestre que 2SLS sigue siendo consistente incluso cuando la primera etapa es un modelo probit o logit?
Además, ¿qué pasa si el resultado también es binario? Entiendo que si tenemos un resultado binario y una variable endógena binaria (las etapas primera y segunda son modelos binarios probit / logit), imitar el método 2SLS producirá una estimación inconsistente. ¿Hay alguna prueba formal de esto? El libro econométrico de Wooldridge tiene algunas discusiones, pero creo que no hay pruebas rigurosas para mostrar la inconsistencia.
data sim;
do i=1 to 500000;
iv=rand("normal",0,1);
x2=rand("normal",0,1);
x3=rand("normal",0,1);
lp=0.5+0.8*iv+0.5*x2-0.2*x3;
T=rand("bernoulli",exp(lp)/(1+exp(lp)));
Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1);
output;
end;
run;
****1st stage: logit model ****;
****get predicted values ****;
proc logistic data=sim descending;
model T=IV;
output out=pred1 pred=p;
run;
****2nd stage: ols model with predicted values****;
proc reg data=pred1;
model y=p;
run;
el coeficiente de p = 1.19984
. Solo ejecuto una simulación pero con un gran tamaño de muestra.
Respuestas:
Ha habido una pregunta similar con respecto a una primera etapa probit y una segunda etapa OLS. En la respuesta , proporcioné un enlace a notas que contienen una prueba formal de la inconsistencia de esta regresión, que se conoce formalmente como "regresión prohibida", como lo denominó Jerry Hausman. La razón principal de la inconsistencia del enfoque probit primera etapa / OLS segunda etapa es que ni el operador de expectativas ni el operador de proyecciones lineales pasan por una primera etapa no lineal. Por lo tanto, los valores ajustados de un probit de primera etapa no están correlacionados con el término de error de segunda etapa bajo suposiciones muy restrictivas que casi nunca se cumplen en la práctica. Sin embargo, tenga en cuenta que la prueba formal de la inconsistencia de la regresión prohibida es bastante elaborada, si no recuerdo mal.
Si tiene un modelo donde es un resultado continuo y es una variable endógena binaria, puede ejecutar la primera etapa través de OLS y use los valores ajustados lugar de en la segunda etapa. Este es el modelo de probabilidad lineal al que te referías. Dado que no hay ningún problema para las expectativas o las proyecciones lineales para esta primera etapa lineal, sus estimaciones 2SLS serán consistentes, aunque menos eficientes de lo que podrían ser si tuviéramos en cuenta la naturaleza no lineal de .
La coherencia de este enfoque se debe al hecho de que, si bien un modelo no lineal puede ajustarse a las expectativas condicionales, funciona más estrechamente para las variables dependientes limitadas, esto no importa mucho si está interesado en el efecto marginal. En el modelo de probabilidad lineal, los coeficientes en sí mismos son efectos marginales evaluados en la media, por lo que si el efecto marginal en la media es lo que busca (y generalmente las personas son), entonces esto es lo que desea dado que el modelo lineal proporciona la mejor linealidad. aproximaciones a funciones de expectativas condicionales no lineales.Yi
Lo mismo es cierto si es binario.
Para una discusión más detallada de esto, eche un vistazo a las excelentes notas de clase de Kit Baum sobre este tema. En la diapositiva 7, analiza el uso del modelo de probabilidad lineal en el contexto 2SLS.
Finalmente, si realmente desea usar probit porque desea estimaciones más eficientes, hay otra manera que también se menciona en Wooldridge (2010) "Análisis econométrico de datos de sección transversal y panel". La respuesta vinculada anterior lo incluye, lo repito aquí para completar. Como ejemplo aplicado, ver Adams et al. (2009) que utilizan un procedimiento de tres pasos que se describe a continuación:
Este procedimiento no cae en el problema de la regresión prohibida, pero potencialmente ofrece estimaciones más eficientes de su parámetro de interés.
fuente