Sesgo de selección: ¿las regresiones múltiples resolverán el problema?

Ahora tengo datos de un país africano sobre (i) niveles de corrupción en los sectores públicos y (ii) percepciones de la calidad del servicio de los hogares (malo, medio y alto). Los datos consisten en dos tipos de hogares: los que han utilizado los servicios públicos y los que NO.

He leído varios artículos de algunas revistas respetadas (World Development, Journal of Development Economics) que abordan el problema del sesgo de selectividad: aquellos que no se han dedicado a los servicios públicos podrían hacerlo porque sabían que tendrían que sobornar (corrupción) o tenían una mala experiencia del pasado y terminarían sintiéndose mal.

Sin embargo, los autores de los artículos no utilizan modelos de Heckit, que he aprendido de mi título. En cambio, argumentan que al ejecutar dos regresiones: (i) usar datos sobre aquellos que realmente usaron los servicios y (ii) todos los hogares de la muestra, independientemente del uso del servicio. Siento que este enfoque no es correcto.

Deseo comprender mejor cómo se debe manejar el sesgo de selección, particularmente en este ejemplo. Algunos problemas con los datos son que los datos pueden ser subjetivos, bastante pequeños (alrededor de 500 hogares) y propensos a errores de medición. ¿Tiene alguna sugerencia para lidiar con los problemas?

Muchas gracias.

selection-bias endogeniety Thien
fuente

¿Podría publicar una referencia a algunos de los artículos a los que se refiere?

Jamzy

¡Hola! Estoy interesado en este artículo: agencyft.org/wp-content/uploads/2013/11/important-papers-2.pdf . Después de leer por un tiempo, siento que los autores resuelven el sesgo diferenciando y ejecutando regresiones múltiples. Pero su escritura no es muy clara (o tal vez solo soy yo).

Thien

Creo que estimaría ambos enfoques para verificar la robustez

user157623

¡gracias! Lo que pregunto es que al ejecutar las dos regresiones (una para los usuarios y otra para la muestra completa), el sesgo de selección desaparecería. Tiene sentido intuitivamente, pero ¿sigo sin sentir que es legítimo? Alguien ayuda? Además, ¿alguien podría reflexionar sobre el papel que publiqué anteriormente?

Thien

Debe presentar más a fondo el modelo que tiene en mente en la pregunta anterior. Mi única suposición es que no está eliminando el sesgo de selección, sino ver si es un problema en sus estimaciones (probando su modelo con las diferentes muestras).

John Doe

Respuestas:

A lo que se refiere es a mínimos cuadrados de dos etapas. Esta es una variable instrumental comúnmente aplicada para corregir la endogenidad y el sesgo de selección. Es un tema bastante candente en economía en este momento y, cuando se aplica correctamente, puede ser muy útil y eliminará el sesgo de selección.

Hay algunas condiciones y suposiciones: suponga que desea estimar esta ecuación

$y_i = \beta x_i +\epsilon_i$

$i$
$y_i$
$x_i$
$\epsilon_i$ $y_i$ $x_i$
$\beta$

$x_i$

$cov(x_i, \epsilon)\neq 0$

$z_i$ $x_i$ $\epsilon$

$cov(z_i, x_i) \neq 0$ $cov(z_i, \epsilon)=0$

Este es un candidato para 2SLS:

$x_i$

$\hat x_i= \hat \gamma z_i + \epsilon$

$y_i$

$y_i= \beta \hat x_i+ \epsilon$

$\hat x_i$

Otras lecturas:

Este ppt (Diapositiva 20 en adelante) describe un excelente (y muy famoso) ejemplo de IV.

Estas notas también son bastante sólidas.

Esta pregunta proporciona algunos libros de texto que también son muy útiles. Mi favorito personal es "Econometría mayormente inofensiva" de Angrist y Pischkes (escrito por el tipo que hizo el famoso ejemplo de ejemplo anterior) y "Análisis econométrico de datos de sección transversal y panel" de Wooldridge. Vale la pena señalar que ambos son libros de posgrado.

Jamzy
fuente

Muchas gracias @Jamzy por tu respuesta. Sin embargo, no pude marcarlo como respondiendo a mi pregunta porque: 1. (aunque ha proporcionado una excelente suma de 2SLS), no responde directamente (cómo se debe entregar el sesgo de selección en el ejemplo) y 2. no es necesariamente, y de hecho no, 2SLS se usa aquí. De hecho, el artículo que publiqué erróneamente usó la regresión de dos etapas con la primera etapa de probit y la segunda etapa de OLS (conocida como las regresiones prohibidas, lo cual es incorrecto). Después de aproximadamente 2 meses leyendo el periódico, llego a la conclusión de que el documento no es fuerte.

Thien

Y sus conclusiones no deben tomarse como su valor nominal. Sin embargo, realmente aprecio su ayuda dedicada y su increíble conocimiento. Gracias @Jamzy.

Thien

Estoy de acuerdo con usted con respecto al papel. La metodología me pareció un poco extraña, pero no la analicé con demasiados detalles. Supongo que mi respuesta es solo parcialmente completa, las regresiones múltiples definitivamente pueden resolver problemas de sesgo de selección, pero no puedo comentar sobre la validez del modelo utilizado. Sin embargo, le sugiero que responda esta pregunta aquí, ya que la ha analizado en detalle.

Jamzy