Modelo conjunto con términos de interacción versus regresiones separadas para una comparación grupal

13

Después de recopilar comentarios valiosos de preguntas y debates anteriores, se me ocurrió la siguiente pregunta: supongamos que el objetivo es detectar diferencias de efectos en dos grupos, por ejemplo, hombres contra mujeres. Hay dos maneras de hacerlo:

  1. ejecutar dos regresiones separadas para los dos grupos, y emplear la prueba de Wald para rechazar (o no) la hipótesis nula : b 1 - b 2 = 0 , donde b 1 es el coeficiente de un IV en la regresión masculina, y b 2 es El coeficiente de la misma IV en la regresión femenina.H0b1b2=0b1b2

  2. agrupe a los dos grupos y ejecute un modelo conjunto al incluir una referencia ficticia de género y un término de interacción (IV * genderdummy). Luego, la detección del efecto grupal se basará en el signo de interacción y la prueba t de significación.

¿Qué pasa si se rechaza Ho en el caso (1), es decir, la diferencia de grupo es significativa, pero el término del coeficiente de interacción en el caso (2) es estadísticamente insignificante, es decir, la diferencia de grupo es insignificante? O viceversa, Ho no se rechaza en el caso (1), y el término de interacción es significativo en el caso (2). Terminé con este resultado varias veces, y me preguntaba qué resultado sería más confiable y cuál es la razón detrás de esta contradicción.

¡Muchas gracias!

Bill718
fuente
1
La diferencia entre los procedimientos es que se supone la misma varianza para ambos grupos. El análisis separado asume diferentes variaciones.
probabilityislogic
¡Muchas gracias! ¿Conoce alguna referencia sobre el tema de las variaciones al comparar diferentes modelos?
Bill718

Respuestas:

7

El primer modelo interactuará completamente con el género con todas las demás covariables en el modelo. Esencialmente, el efecto de cada covariable (b2, b3 ... bn). En el segundo modelo, el efecto del género solo interactúa con su IV. Entonces, suponiendo que tenga más covariables que solo el IV y el género, esto puede generar resultados algo diferentes.

Si solo tiene las dos covariables, hay ocasiones documentadas en las que la diferencia en la maximización entre la prueba de Wald y la prueba de razón de probabilidad conduce a diferentes respuestas (ver más en la wikipedia ).

En mi propia experiencia, trato de guiarme por la teoría. Si hay una teoría dominante que sugiera que el género interactuaría solo con el IV, pero no con las otras covariables, iría con la interacción parcial.

mCorey
fuente
¡Gracias! Sí, en realidad hay varias covariables, no solo una IV, solo mencioné una IV en la pregunta por simplicidad. La cuestión es que no hay una teoría sólida que pueda apoyar la interacción entre el género y ciertas covariables, es un análisis exploratorio, por lo que necesito experimentar con muchas interacciones y ajustes de modelos; el modelo inicial contiene 30 predictores ...
Bill718
@ Bill718 Además, los modelos separados tendrán una intercepción diferente, mientras que el modelo único no, a menos que especifique el género solo como un IV adicional (no solo como una interacción).
Robert Kubrick
5

Cada vez que se utilizan dos procedimientos diferentes para probar una hipótesis particular, habrá valores p diferentes. Decir que uno es significativo y el otro no puede ser simplemente tomar una decisión en blanco y negro al nivel 0.05. Si una prueba da un valor p de 0.03 y la otra dice 0.07, no llamaría a los resultados contradictorios. Si va a ser tan estricto al pensar en la importancia, es fácil que surja la situación (i) o (ii) cuando la importancia de la junta es el caso.

Como mencioné en respuesta a la pregunta anterior, mi preferencia por buscar una interacción es hacer una regresión combinada.

Michael R. Chernick
fuente
Sí, es cierto que la regresión combinada parece funcionar mejor, al menos en mi caso, y es un método muy flexible, ya que alguien podría intentar con diferentes interacciones y ajustes de modelos. Solo quería, por curiosidad "estadística", digamos , para descubrir cuál es la razón detrás de los resultados de alguna manera diferentes. Con respecto a los valores p, he escuchado que algunas personas aceptan significancia solo a un nivel de = 0.5% o menos. Soy más flexible, usando un nivel de = 1%, pero el gran dolor de cabeza viene cuando los valores p son completamente diferentes.
Bill718
He visto estudios por ejemplo, donde un IV es muy significativo cuando se emplea un logit modet ordenado, mientras que el mismo IV se vuelve insignificante cuando se aplica un OLS. Entonces, en ese caso, la explicación de los resultados puede ser un poco complicada. Muchas gracias por sus comentarios y sugerencias!
Bill718
0.070.03
2

En el segundo caso, el software estándar le sugeriría un t-stat con valores de t-student, mientras que para el primer caso las pruebas de Wald pueden tener dos opciones. En el supuesto de normalidad de errores, el estadístico de Wald sigue un estadístico exacto de Fisher (que es equivalente al estadístico t, ya que supone la normalidad del error). Mientras que bajo la normalidad asintótica, el estadístico de Wald sigue una distribución Chi2 (que es análoga a la estadística t-t que sigue una distribución normal de manera asimétrica) ¿Qué distribución está asumiendo? Dependiendo de esto, sus valores p corren el riesgo de darle resultados diferentes.

En los libros de texto, encontrará que para las pruebas individuales bilaterales (un parámetro), las estadísticas de t-student y Fisher son equivalentes.

Si su muestra no es grande, entonces comparar los valores de chi2 y t-stat arrojaría resultados diferentes con certeza. En ese caso, asumir una distribución asintótica no sería razonable. Si su muestra es bastante pequeña, entonces suponiendo que la normalidad parece más razonable, esto implica valores t-stat y Fisher para los casos 2 y 1 respectivamente.

JDav
fuente
De hecho, tengo dos muestras de tamaño desigual, la primera tiene 3000 observaciones, pero la segunda es relativamente pequeña, 500 observaciones. Y el software informa chi-cuadrado cuando calcula las estadísticas de Wald. Entonces, parece que esta es la razón de la discrepancia. Sin embargo, ambas muestras se distribuyen normalmente, especialmente en el caso de la muestra grande. ¡Muchas gracias!
Bill718
1
Lamento engañarlo, pero el tamaño desigual de las submuestras no es un problema. Además, el tuyo me parece una gran muestra. entonces ambos procedimientos deberían producir resultados similares. Noté que @probabilityislogic hizo un buen punto. El uso de una muestra agrupada implica variaciones residuales iguales, por lo que puede ser una fuente de heterogeneidad. No sé cómo está implementando el procedimiento de regresión por separado, pero es fácil cometer errores si está calculando la estadística usted mismo. Esto hace que la regresión agrupada sea un enfoque directo y seguro.
JDav
1
Para resolver el problema de las variaciones desiguales entre los grupos (heterocedasticidad), pruebe con un estimador de varianza White (también conocido como Newey-west, Sandwich o Robust si usa stata). Este enfoque corrige los tipos desconocidos de heterocedacidad.
JDav
Oh, vale, ya veo, en realidad las observaciones en la muestra provienen de diferentes regiones de un país, por lo que es muy posible que suponga que existen problemas de heterogeneidad.
Bill718