Suponga que tiene una sola sección transversal de datos donde los individuos se encuentran dentro de los grupos (por ejemplo, estudiantes dentro de las escuelas) y desea estimar un modelo del formulario Y_i = a + B*X_i
donde X
es un vector de características de nivel individual ya
una constante.
En este caso, suponga que la heterogeneidad entre grupos no observada sesga sus estimaciones puntuales de B
y sus SE, ya que está correlacionada con su variable de interés independiente.
Una opción es agrupar sus SE por grupos (escuelas). Otra es incluir las EFE grupales. Otro es usar ambos. ¿Qué se debe considerar al elegir entre estas opciones? No está particularmente claro por qué uno podría agrupar SE por grupo Y usar el grupo FE. En mi caso específico, tengo 35 grupos y 5,000 individuos anidados dentro de cada grupo. He seguido la discusión en este pdf , pero no está muy claro por qué y cuándo uno podría usar tanto SE agrupados como efectos fijos.
(Discuta los pros y los contras de las SE agrupadas frente a las FE en lugar de sugerir que simplemente me ajuste a un modelo multinivel).
fuente
Los efectos fijos son para eliminar la heterogeneidad no observada ENTRE diferentes grupos en sus datos.
No estoy de acuerdo con la implicación en la respuesta aceptada de que la decisión de usar un modelo FE dependerá de si desea usar "menos variación o no". Si su variable dependiente se ve afectada por variables no observables que varían sistemáticamente entre los grupos de su panel, entonces el coeficiente de cualquier variable que esté correlacionado con esta variación estará sesgado. A menos que sus variables X hayan sido asignadas aleatoriamente (y nunca lo serán con datos de observación), generalmente es bastante fácil argumentar el sesgo de las variables omitidas. Usted puedepuede controlar algunas de las variables omitidas con una buena lista de variables de control, pero si su objetivo número 1 es una identificación sólida, incluso una lista extensa de controles puede dejar espacio para que los lectores críticos duden de sus resultados. En estos casos, generalmente es una buena idea usar un modelo de efectos fijos.
Los errores estándar agrupados son para contabilizar situaciones en las que las observaciones DENTRO de cada grupo no son iid (distribuidas de forma idéntica e independiente).
Un ejemplo clásico es si tiene muchas observaciones para un panel de empresas a lo largo del tiempo. Puede tener en cuenta los efectos fijos a nivel de empresa, pero aún puede haber alguna variación inexplicable en su variable dependiente que se correlaciona a lo largo del tiempo. En general, cuando se trabaja con datos de series temporales, generalmente es seguro asumir una correlación serial temporal en los términos de error dentro de sus grupos. Estas situaciones son los casos de uso más obvios para los SE agrupados.
Algunos ejemplos ilustrativos:
Si tiene datos experimentales donde asigna tratamientos al azar, pero hace observaciones repetidas para cada individuo / grupo a lo largo del tiempo, estaría justificado omitir efectos fijos, pero desearía agrupar sus SE.
Alternativamente, si tiene muchas observaciones por grupo para datos no experimentales, pero cada observación dentro del grupo puede considerarse como un sorteo de su grupo más grande (por ejemplo, tiene observaciones de muchas escuelas, pero cada grupo es un subconjunto aleatorio de estudiantes de su escuela), desearía incluir efectos fijos pero no necesitaría SE agrupadas.
fuente
Estas respuestas están bien, pero la respuesta más reciente y mejor la proporcionan Abadie et al. (2019) "¿Cuándo debe ajustar los errores estándar para el agrupamiento?" Con efectos fijos, una razón principal para agrupar es que tiene heterogeneidad en los efectos del tratamiento en todos los grupos. Hay otras razones, por ejemplo, si los grupos (por ejemplo, empresas, países) son un subconjunto de los grupos en la población (acerca de lo que está deduciendo). La agrupación es un problema de diseño es el mensaje principal del documento. No lo hagas a ciegas.
fuente