Espero que alguien pueda ayudarme a aclarar un punto de confusión para mí. Digamos que quiero probar si 2 conjuntos de coeficientes de regresión son significativamente diferentes entre sí, con la siguiente configuración:
- , con 5 variables independientes.
- 2 grupos, con tamaños aproximadamente iguales (aunque esto puede variar)
- Se realizarán miles de regresiones similares simultáneamente, por lo que se debe realizar algún tipo de corrección de hipótesis múltiples.
Un enfoque que me sugirieron es usar una prueba Z:
Otro que he visto sugerido en este tablero es introducir una variable ficticia para agrupar y reescribir el modelo como:
, donde es la variable de agrupación, codificada como 0, 1.
Mi pregunta es, ¿en qué se diferencian estos dos enfoques (por ejemplo, diferentes supuestos, flexibilidad)? ¿Es uno más apropiado que el otro? Sospecho que esto es bastante básico, pero cualquier aclaración sería muy apreciada.
Respuestas:
Los dos enfoques son diferentes.
Supongamos que los errores estándar estimados de las dos regresiones son y s 2 . Luego, debido a que la regresión combinada (con todas las interacciones coeficiente-ficticio) se ajusta a los mismos coeficientes, tiene los mismos residuos, por lo que su error estándar puede calcularse comos1 s2
El número de parámetros es igual a 6 en el ejemplo: cinco pendientes y una intersección en cada regresión.p 6
Supongamos que estima un parámetro en una regresión, b 2 estima el mismo parámetro en la otra regresión y b estima su diferencia en la regresión combinada. Entonces sus errores estándar están relacionados porb1 b2 b
Si no ha realizado la regresión combinada, pero solo tiene estadísticas para las regresiones separadas, conecte la ecuación anterior para . Este será el denominador para la prueba t. Evidentemente, no es lo mismo que el denominador presentado en la pregunta.s
La suposición hecha por la regresión combinada es que las variaciones de los residuos son esencialmente las mismas en ambas regresiones separadas. Sin embargo, si este no es el caso, la prueba z tampoco será buena (a menos que los tamaños de muestra sean grandes): querrá usar una prueba CABF o una prueba t Welch-Satterthwaite.
fuente
La forma más directa de comprobar una diferencia en el coeficiente entre dos grupos es incluir un término de interacción en su regresión, que es casi lo que describe en su pregunta. El modelo que ejecutarías es el siguiente:
Tenga en cuenta que he incluido la variable de grupo como un regresor separado en el modelo. Con este modelo, una prueba con la hipótesis nula H 0 : δ = 0 es una prueba de que los coeficientes son los mismos entre los dos grupos. Para ver esto, primero dejemos g i = 0 en el modelo anterior. Luego, obtenemos la siguiente ecuación para el grupo 0:t H0:δ=0 gi=0
Ahora, si , entonces tenemos:gi=1
Por lo tanto, cuando es 0, entonces dos grupos tienen el mismo coeficiente.δ
fuente