¿Debo ejecutar regresiones separadas para cada comunidad, o la comunidad puede ser simplemente una variable de control en un modelo agregado?

11

Estoy ejecutando un modelo OLS con una variable de índice de activo continuo como DV. Mis datos se agregan de tres comunidades similares en estrecha proximidad geográfica entre sí. A pesar de esto, pensé que era importante usar la comunidad como una variable de control. Resulta que la comunidad es significativa al nivel del 1% (puntaje t de -4.52). La comunidad es una variable nominal / categórica codificada como 1,2,3 para 1 de 3 comunidades diferentes.

Mi pregunta es si este alto grado de significación significa que debería estar haciendo regresiones en las comunidades individualmente en lugar de como una agregación. De lo contrario, ¿está utilizando la comunidad como una variable de control esencialmente haciendo eso?

regression categorical-data stata multiple-regression aggregation cadamt
fuente

¿Tendría sentido utilizar un modelo jerárquico con la comunidad como efecto aleatorio? Las comunidades no son su principal preocupación, ¿verdad? Al usar un modelo jerárquico, compartes fuerza.

Wayne

14

La pregunta sugiere una comparación de tres modelos relacionados. Para aclarar la comparación, deje que sea la variable dependiente, deje que sea el código de comunidad actual y defina y como indicadores de las comunidades 1 y 2, respectivamente. (Esto significa que para la comunidad 1 y para las comunidades 2 y 3; para la comunidad 2 y para las comunidades 1 y 3.) $Y$ $X \in \{1,2,3\}$ $X_1$ $X_2$ $X_1=1$ $X_1=0$ $X_2=1$ $X_2=0$

El análisis actual puede ser uno de los siguientes:

Y = α + β X + ε (first model)

$Y = \alpha + \beta X + \varepsilon\quad\text{(first model)}$

o

Y = α + β_{1} X_{1} + β_{2} X_{2} + ε (second model) .

$Y = \alpha + \beta_1 X_1 + \beta_2 X_2 + \varepsilon\quad\text{(second model)}.$

En ambos casos, representa un conjunto de variables aleatorias independientes distribuidas idénticamente con cero expectativa. El segundo modelo probablemente sea el previsto, pero el primer modelo es el que se ajustará a la codificación que se describe en la pregunta. $\varepsilon$

La salida de la regresión OLS es un conjunto de parámetros ajustados (indicados con "sombreros" en sus símbolos) junto con una estimación de la varianza común de los errores. En el primer modelo hay una prueba t para comparar con . En el segundo modelo hay dos pruebas t: una para comparar con y otra para comparar con . Debido a que la pregunta informa solo una prueba t, comencemos examinando el primer modelo. $\hat{\beta}$ $0$ $\hat{\beta_1}$ $0$ $\hat{\beta_2}$ $0$

Habiendo concluido que es significativamente diferente de , podemos hacer una estimación de = = para cualquier comunidad: $\hat{\beta}$ $0$ $Y$ $\mathbb{E}[\alpha + \beta X + \varepsilon]$ $\alpha + \beta X$

para la comunidad 1, y la estimación es igual a ; $X=1$ $\alpha+\beta$

para la comunidad 2, y la estimación es igual a ; y $X=2$ $\alpha+2\beta$

para la comunidad 3, y la estimación es igual a . $X=3$ $\alpha+3\beta$

En particular, el primer modelo obliga a los efectos de la comunidad a estar en progresión aritmética. Si la codificación de la comunidad pretende ser solo una forma arbitraria de diferenciar entre comunidades, esta restricción incorporada es igualmente arbitraria y probablemente errónea.

Es instructivo realizar el mismo análisis detallado de las predicciones del segundo modelo:

Para la comunidad 1, donde y , el valor predicho de es igual a . Específicamente, $X_1=1$ $X_2=0$ $Y$ $\alpha + \beta_1$

Y (community 1) = α + β_{1} + ε .

$Y(\text{community 1}) = \alpha + \beta_1 + \varepsilon.$

Para la comunidad 2, donde y , el valor predicho de es igual a . Específicamente, $X_1=0$ $X_2=1$ $Y$ $\alpha+\beta_2$

Y (community 2) = α + β_{2} + ε .

$Y(\text{community 2}) = \alpha + \beta_2 + \varepsilon.$

Para la comunidad 3, donde , el valor predicho de es igual a . Específicamente, $X_1=X_2=0$ $Y$ $\alpha$

Y (community 3) = α + ε .

$Y(\text{community 3}) = \alpha + \varepsilon.$

Los tres parámetros efectivamente le dan al segundo modelo total libertad para estimar los tres valores esperados de separado. $Y$ Las pruebas t evalúan si (1) ; es decir, si hay una diferencia entre las comunidades 1 y 3; y (2) ; es decir, si existe una diferencia entre las comunidades 2 y 3. Además, se puede probar el "contraste" con una prueba t para ver si las comunidades 2 y 1 son diferentes: esto funciona porque su diferencia es = . $\beta_1=0$ $\beta_2=0$ $\beta_2-\beta_1$ $(\alpha + \beta_2) - (\alpha + \beta_1)$ $\beta_2-\beta_1$

Ahora podemos evaluar el efecto de tres regresiones separadas. Ellos serian

Y (community 1) = α_{1} + ε_{1},

$Y(\text{community 1}) = \alpha_1 + \varepsilon_1,$

Y (community 2) = α_{2} + ε_{2},

$Y(\text{community 2}) = \alpha_2 + \varepsilon_2,$

Y (community 3) = α_{3} + ε_{3} .

$Y(\text{community 3}) = \alpha_3 + \varepsilon_3.$

Comparando esto con el segundo modelo, vemos que debería estar de acuerdo con , debería estar de acuerdo con , y debería estar de acuerdo con . Entonces, en términos de flexibilidad de ajuste de parámetros, ambos modelos son igualmente buenos. Sin embargo, las suposiciones en este modelo sobre los términos de error son más débiles. Todos los deben ser independientes e idénticamente distribuidos (iid); todo debe ser iid, y todo debe ser iid, pero no se supone nada sobre las relaciones estadísticas entre las regresiones separadas. $\alpha_1$ $\alpha+\beta_1$ $\alpha_2$ $\alpha+\beta_2$ $\alpha_3$ $\alpha$ $\varepsilon_1$ $\varepsilon_2$ $\varepsilon_3$ Por lo tanto, las regresiones separadas permiten una flexibilidad adicional:

Lo más importante, la distribución de puede diferir de la de que puede diferir de la de . $\varepsilon_1$ $\varepsilon_2$ $\varepsilon_3$
En algunas situaciones, el puede estar correlacionado con el . Ninguno de estos modelos maneja esto explícitamente, pero el tercer modelo (regresiones separadas) al menos no se verá afectado negativamente por él. $\varepsilon_i$ $\varepsilon_j$

Esta flexibilidad adicional significa que los resultados de la prueba t para los parámetros probablemente diferirán entre el segundo y el tercer modelo. (Sin embargo, no debería dar lugar a estimaciones de parámetros diferentes).

Para ver si se necesitan regresiones separadas , haga lo siguiente:

Montar el segundo modelo. Trace los residuos en función de la comunidad, por ejemplo, como un conjunto de diagramas de recuadros lado a lado o un trío de histogramas o incluso como tres diagramas de probabilidad. Busque evidencia de diferentes formas de distribución y especialmente de variaciones apreciablemente diferentes. Si esa evidencia está ausente, el segundo modelo debería estar bien. Si está presente, se justifican regresiones separadas.

Cuando los modelos son multivariados, es decir, incluyen otros factores, es posible un análisis similar, con conclusiones similares (pero más complicadas). En general, realizar regresiones separadas equivale a incluir todas las interacciones bidireccionales posibles con la variable comunitaria (codificada como en el segundo modelo, no en el primero) y permitir diferentes distribuciones de errores para cada comunidad.

whuber
fuente

-3

Se puede recomendar la selección del modelo (en mi humilde opinión) . Debido a que los modelos complejos (pendiente separada) tendrán la penalización más dura, por lo tanto, los modelos interpretables más concisos y más fáciles serán "mejores".

Ivan Kshnyasev
fuente

1

No está del todo claro qué está recomendando aquí o cómo se relaciona esta tabla con él.

Scortchi - Restablece a Monica

¿Debo ejecutar regresiones separadas para cada comunidad, o la comunidad puede ser simplemente una variable de control en un modelo agregado?

Respuestas: