¿Cómo probar si un coeficiente de regresión es moderado por una variable de agrupación?

9

Tengo una regresión realizada en dos grupos de la muestra basada en una variable moderadora (por ejemplo, género). Estoy haciendo una prueba simple para el efecto moderador comprobando si la importancia de la regresión se pierde en un conjunto mientras permanece en el otro.

P1: El método anterior es válido, ¿no?

P2: El nivel de confianza de mi investigación se establece en 95%. Para un grupo, la regresión es significativa en .000. Por otro lado, es significativo en 0.038 Entonces, creo que tengo que aceptar ambas regresiones como significativas y que no hay un efecto moderador. Al aceptar que la regresión es significativa, mientras que se ha comprobado que no está en 0.01 ¿Estoy causando un error de Tipo I (aceptando el argumento falso)?

escorpión
fuente

Respuestas:

12

Su método no parece abordar la pregunta, suponiendo que un "efecto moderador" es un cambio en uno o más coeficientes de regresión entre los dos grupos. Las pruebas de significación en regresión evalúan si los coeficientes son distintos de cero. La comparación de los valores p en dos regresiones le dice poco (si es que hay algo) sobre las diferencias en esos coeficientes entre las dos muestras.

En su lugar, introduzca el género como una variable ficticia e interactúelo con todos los coeficientes de interés. Luego pruebe la importancia de los coeficientes asociados.

Por ejemplo, en el caso más simple (de una variable independiente) sus datos se pueden expresar como una lista de tuplas donde son los géneros, codificados como y . El modelo para el género es(xi,yi,gi)gi010

yi=α0+β0xi+εi

(donde indexa los datos para los que ) y el modelo para el género esigi=01

yi=α1+β1xi+εi

(donde índices los datos para los que ). Los parámetros son , , y . Los errores son . Supongamos que son independientes e idénticamente distribuidos con cero medios. Un modelo combinado para probar una diferencia en las pendientes (los 's) se puede escribir comoigi=1α0α1β0β1εiβ

yi=α+β0xi+(β1β0)(xigi)+εi

(donde se extiende sobre todos los datos), porque cuando se establece el último término cae, dando el primer modelo con , y cuando se establece los dos múltiplos de se combinan para dar , produciendo el segundo modelo con . Por lo tanto, puede probar si las pendientes son las mismas (el "efecto moderador") ajustando el modeloigi=0α=α0gi=1xiβ1α=α1

yi=α+βxi+γ(xigi)+εi

y probar si el tamaño estimado del efecto moderador, , es cero. Si no está seguro de que las intersecciones serán las mismas, incluya un cuarto término:γ^

yi=α+δgi+βxi+γ(xigi)+εi.

No necesariamente tiene que probar si es cero, si eso no es de ningún interés: se incluye para permitir ajustes lineales separados para los dos géneros sin obligarlos a tener la misma intercepción.δ^

La principal limitación de este enfoque es la suposición de que las variaciones de los errores son las mismas para ambos sexos. De lo contrario, debe incorporar esa posibilidad y eso requiere un poco más de trabajo con el software para adaptarse al modelo y una reflexión más profunda sobre cómo evaluar la importancia de los coeficientes.εi

whuber
fuente
Gracias, puedo entender cómo funciona esto. ¿Este método funciona si tengo múltiples variables de moderación? ¿Digamos, por ejemplo, región (rural / urbana), nivel educativo (escuela secundaria educada / no)? ¿Puedo agregar variables ficticias adicionales y probar el efecto?
escorpión
1
@whuber, ocasionalmente me encuentro con situaciones funcionalmente similares en las que el analista simplemente divide la muestra en los dos grupos, usa el mismo conjunto de variables independientes para ambos grupos y simplemente compara cualitativamente los coeficientes. ¿Hay alguna ventaja de esa situación que acabo de describir sobre esta formulación del uso de efectos de interacción?
Andy W
3
@Andy Sin ninguna intención de sonar crítico o despreciativo, la única ventaja que puedo pensar para el método cualitativo es que no exige la comprensión o competencia del analista: esto lo hace accesible a más personas. El enfoque cualitativo está lleno de dificultades. Por ejemplo, puede haber grandes diferencias aparentes entre las pendientes y las intersecciones solo por casualidad. Una evaluación cualitativa de solo los coeficientes no podrá distinguir esta situación de los efectos reales.
whuber
1
@whuber, mi pensamiento inicial fue el mismo, y recientemente le di la misma sugerencia a un colega que ignoró la sugerencia por simplicidad (como aludiste). Pensé que quizás el comentario sobre el supuesto de que las variaciones de error son las mismas para ambos sexos puede hacer que el enfoque de los dos modelos sea más apropiado dado que se viola el supuesto.
Andy W
1
@Andy Sí, pero la posibilidad de diferentes variaciones no mejora el valor de una comparación no cualitativa. Más bien, requeriría una comparación cuantitativa más matizada de las estimaciones de los parámetros. Por ejemplo, como una aproximación cruda (pero informativa), se podría realizar una variante de una prueba t de CABF o Satterthwaite basada en las variaciones de error estimadas y sus grados de libertad. Incluso el examen visual de un diagrama de dispersión bien construido sería fácil de hacer y mucho más informativo que simplemente comparar los coeficientes de regresión.
whuber
-1

Supongo que moderar una variable de agrupación funcionaría igualmente bien cuando se comparan los coeficientes de regresión a través de ondas independientes de datos de sección transversal (por ejemplo, año1, año2 y año3 como grupo1 grupo2 y grupo3).

nuez de sangre
fuente