¿Cómo probar si un coeficiente de regresión es moderado por una variable de agrupación?

Su método no parece abordar la pregunta, suponiendo que un "efecto moderador" es un cambio en uno o más coeficientes de regresión entre los dos grupos. Las pruebas de significación en regresión evalúan si los coeficientes son distintos de cero. La comparación de los valores p en dos regresiones le dice poco (si es que hay algo) sobre las diferencias en esos coeficientes entre las dos muestras.

En su lugar, introduzca el género como una variable ficticia e interactúelo con todos los coeficientes de interés. Luego pruebe la importancia de los coeficientes asociados.

Por ejemplo, en el caso más simple (de una variable independiente) sus datos se pueden expresar como una lista de tuplas donde son los géneros, codificados como y . El modelo para el género es $(x_i, y_i, g_i)$ $g_i$ $0$ $1$ $0$

y_{i} = α_{0} + β_{0} x_{i} + ε_{i}

$y_i = \alpha_0 + \beta_0 x_i + \varepsilon_i$

(donde indexa los datos para los que ) y el modelo para el género es $i$ $g_i = 0$ $1$

y_{i} = α_{1} + β_{1} x_{i} + ε_{i}

$y_i = \alpha_1 + \beta_1 x_i + \varepsilon_i$

(donde índices los datos para los que ). Los parámetros son , , y . Los errores son . Supongamos que son independientes e idénticamente distribuidos con cero medios. Un modelo combinado para probar una diferencia en las pendientes (los 's) se puede escribir como $i$ $g_i = 1$ $\alpha_0$ $\alpha_1$ $\beta_0$ $\beta_1$ $\varepsilon_i$ $\beta$

y_{i} = α + β_{0} x_{i} + (β_{1} - β_{0}) (x_{i} g_{i}) + ε_{i}

$y_i = \alpha + \beta_0 x_i + (\beta_1 - \beta_0) (x_i g_i) + \varepsilon_i$

(donde se extiende sobre todos los datos), porque cuando se establece el último término cae, dando el primer modelo con , y cuando se establece los dos múltiplos de se combinan para dar , produciendo el segundo modelo con . Por lo tanto, puede probar si las pendientes son las mismas (el "efecto moderador") ajustando el modelo $i$ $g_i=0$ $\alpha = \alpha_0$ $g_i=1$ $x_i$ $\beta_1$ $\alpha = \alpha_1$

y_{i} = α + β x_{i} + γ (x_{i} g_{i}) + ε_{i}

$y_i = \alpha + \beta x_i + \gamma (x_i g_i) + \varepsilon_i$

y probar si el tamaño estimado del efecto moderador, , es cero. Si no está seguro de que las intersecciones serán las mismas, incluya un cuarto término: $\hat{\gamma}$

y_{i} = α + δ g_{i} + β x_{i} + γ (x_{i} g_{i}) + ε_{i} .

$y_i = \alpha + \delta g_i + \beta x_i + \gamma (x_i g_i) + \varepsilon_i.$

No necesariamente tiene que probar si es cero, si eso no es de ningún interés: se incluye para permitir ajustes lineales separados para los dos géneros sin obligarlos a tener la misma intercepción. $\hat{\delta}$

La principal limitación de este enfoque es la suposición de que las variaciones de los errores son las mismas para ambos sexos. De lo contrario, debe incorporar esa posibilidad y eso requiere un poco más de trabajo con el software para adaptarse al modelo y una reflexión más profunda sobre cómo evaluar la importancia de los coeficientes. $\varepsilon_i$

whuber
fuente

Gracias, puedo entender cómo funciona esto. ¿Este método funciona si tengo múltiples variables de moderación? ¿Digamos, por ejemplo, región (rural / urbana), nivel educativo (escuela secundaria educada / no)? ¿Puedo agregar variables ficticias adicionales y probar el efecto?

escorpión

@whuber, ocasionalmente me encuentro con situaciones funcionalmente similares en las que el analista simplemente divide la muestra en los dos grupos, usa el mismo conjunto de variables independientes para ambos grupos y simplemente compara cualitativamente los coeficientes. ¿Hay alguna ventaja de esa situación que acabo de describir sobre esta formulación del uso de efectos de interacción?

Andy W

@Andy Sin ninguna intención de sonar crítico o despreciativo, la única ventaja que puedo pensar para el método cualitativo es que no exige la comprensión o competencia del analista: esto lo hace accesible a más personas. El enfoque cualitativo está lleno de dificultades. Por ejemplo, puede haber grandes diferencias aparentes entre las pendientes y las intersecciones solo por casualidad. Una evaluación cualitativa de solo los coeficientes no podrá distinguir esta situación de los efectos reales.

whuber

@whuber, mi pensamiento inicial fue el mismo, y recientemente le di la misma sugerencia a un colega que ignoró la sugerencia por simplicidad (como aludiste). Pensé que quizás el comentario sobre el supuesto de que las variaciones de error son las mismas para ambos sexos puede hacer que el enfoque de los dos modelos sea más apropiado dado que se viola el supuesto.

Andy W

@Andy Sí, pero la posibilidad de diferentes variaciones no mejora el valor de una comparación no cualitativa. Más bien, requeriría una comparación cuantitativa más matizada de las estimaciones de los parámetros. Por ejemplo, como una aproximación cruda (pero informativa), se podría realizar una variante de una prueba t de CABF o Satterthwaite basada en las variaciones de error estimadas y sus grados de libertad. Incluso el examen visual de un diagrama de dispersión bien construido sería fácil de hacer y mucho más informativo que simplemente comparar los coeficientes de regresión.

whuber

¿Cómo probar si un coeficiente de regresión es moderado por una variable de agrupación?

Respuestas: