¿Cuándo usar efectos fijos frente a usar SE de clúster?

19

Suponga que tiene una sola sección transversal de datos donde los individuos se encuentran dentro de los grupos (por ejemplo, estudiantes dentro de las escuelas) y desea estimar un modelo del formulario Y_i = a + B*X_idonde Xes un vector de características de nivel individual ya una constante.

En este caso, suponga que la heterogeneidad entre grupos no observada sesga sus estimaciones puntuales de B y sus SE, ya que está correlacionada con su variable de interés independiente.

Una opción es agrupar sus SE por grupos (escuelas). Otra es incluir las EFE grupales. Otro es usar ambos. ¿Qué se debe considerar al elegir entre estas opciones? No está particularmente claro por qué uno podría agrupar SE por grupo Y usar el grupo FE. En mi caso específico, tengo 35 grupos y 5,000 individuos anidados dentro de cada grupo. He seguido la discusión en este pdf , pero no está muy claro por qué y cuándo uno podría usar tanto SE agrupados como efectos fijos.

(Discuta los pros y los contras de las SE agrupadas frente a las FE en lugar de sugerir que simplemente me ajuste a un modelo multinivel).

Pregunta respuesta
fuente

Respuestas:

22

Ambos enfoques, que usan efectos fijos grupales y / o errores estándar ajustados por conglomerados, tienen en cuenta diferentes problemas relacionados con los datos agrupados (o de panel) y los vería claramente como enfoques distintos. A menudo quieres usar ambos:

En primer lugar, el error estándar ajustado por conglomerado explica la correlación o la heterocedasticidad dentro del conglomerado que el estimador de efectos fijos no tiene en cuenta a menos que esté dispuesto a hacer más suposiciones, vea las diapositivas de la conferencia de Imbens y Wooldridge para una buena discusión sobre y paneles largos y varios temas relacionados con este problema . También hay un documento nuevo sobre este tema de Cameron y Miller: una guía del practicante para la inferencia robusta en clúster que puede ser interesante para usted. Si no desea modelar la matriz de varianza-covarianza y sospecha que existe una correlación dentro del grupo, le aconsejo que use un error estándar robusto del grupo porque el sesgo en su SE puede ser grave (mucho más problemático que para la heterocedasticidad, consulteAngrist & Pischke Capítulo III.8 para una discusión de este tema. Pero necesita suficiente clúster (Angrist y Pischke dicen 40-50 como una función de pulgar). ¡El error estándar ajustado por el clúster tiene en cuenta el error estándar pero deja las estimaciones puntuales sin cambios (el error estándar generalmente aumentará)!

La estimación de efectos fijos tiene en cuenta la heterogeneidad invariante no observada en el tiempo (como mencionó). Esto puede ser bueno o malo: por otro lado, necesita menos suposiciones para obtener estimaciones consistentes. Por otro lado, descarta muchas variaciones que podrían ser útiles. Algunas personas como Andrew Gelman prefieren el modelado jerárquico a los efectos fijos, pero aquí las opiniones difieren. La estimación de efectos fijos cambiará tanto las estimaciones puntuales como de intervalo (también aquí el error estándar generalmente será mayor).

En resumen: los errores estándar robustos en clúster son una forma fácil de tener en cuenta los posibles problemas relacionados con los datos agrupados si no desea molestarse en modelar la correlación entre clústeres e intra-clúster (y hay suficientes clústeres disponibles). La estimación de efectos fijos solo utilizará cierta variación, por lo que depende de su modelo si desea hacer estimaciones basadas en menos variación o no. Pero sin más suposiciones, la estimación de efectos fijos no se ocupará de los problemas relacionados con la correlación intra-cluster para la matriz de varianza. Tampoco el error estándar robusto en clúster tendrá en cuenta los problemas relacionados con el uso de la estimación de efectos fijos.

Arne Jonas Warnke
fuente
2
Buena respuesta La pregunta clave restante es por qué uno querría AMBOS. Imbens y Wooldridge cubren esto hasta cierto punto.
Pregunta:
13

Los efectos fijos son para eliminar la heterogeneidad no observada ENTRE diferentes grupos en sus datos.

No estoy de acuerdo con la implicación en la respuesta aceptada de que la decisión de usar un modelo FE dependerá de si desea usar "menos variación o no". Si su variable dependiente se ve afectada por variables no observables que varían sistemáticamente entre los grupos de su panel, entonces el coeficiente de cualquier variable que esté correlacionado con esta variación estará sesgado. A menos que sus variables X hayan sido asignadas aleatoriamente (y nunca lo serán con datos de observación), generalmente es bastante fácil argumentar el sesgo de las variables omitidas. Usted puedepuede controlar algunas de las variables omitidas con una buena lista de variables de control, pero si su objetivo número 1 es una identificación sólida, incluso una lista extensa de controles puede dejar espacio para que los lectores críticos duden de sus resultados. En estos casos, generalmente es una buena idea usar un modelo de efectos fijos.

Los errores estándar agrupados son para contabilizar situaciones en las que las observaciones DENTRO de cada grupo no son iid (distribuidas de forma idéntica e independiente).

Un ejemplo clásico es si tiene muchas observaciones para un panel de empresas a lo largo del tiempo. Puede tener en cuenta los efectos fijos a nivel de empresa, pero aún puede haber alguna variación inexplicable en su variable dependiente que se correlaciona a lo largo del tiempo. En general, cuando se trabaja con datos de series temporales, generalmente es seguro asumir una correlación serial temporal en los términos de error dentro de sus grupos. Estas situaciones son los casos de uso más obvios para los SE agrupados.

Algunos ejemplos ilustrativos:

Si tiene datos experimentales donde asigna tratamientos al azar, pero hace observaciones repetidas para cada individuo / grupo a lo largo del tiempo, estaría justificado omitir efectos fijos, pero desearía agrupar sus SE.

Alternativamente, si tiene muchas observaciones por grupo para datos no experimentales, pero cada observación dentro del grupo puede considerarse como un sorteo de su grupo más grande (por ejemplo, tiene observaciones de muchas escuelas, pero cada grupo es un subconjunto aleatorio de estudiantes de su escuela), desearía incluir efectos fijos pero no necesitaría SE agrupadas.

Alex P. Miller
fuente
2

Estas respuestas están bien, pero la respuesta más reciente y mejor la proporcionan Abadie et al. (2019) "¿Cuándo debe ajustar los errores estándar para el agrupamiento?" Con efectos fijos, una razón principal para agrupar es que tiene heterogeneidad en los efectos del tratamiento en todos los grupos. Hay otras razones, por ejemplo, si los grupos (por ejemplo, empresas, países) son un subconjunto de los grupos en la población (acerca de lo que está deduciendo). La agrupación es un problema de diseño es el mensaje principal del documento. No lo hagas a ciegas.

Kishore Gawande
fuente