¿Cuál es la forma correcta de probar las diferencias significativas entre coeficientes?

18

Espero que alguien pueda ayudarme a aclarar un punto de confusión para mí. Digamos que quiero probar si 2 conjuntos de coeficientes de regresión son significativamente diferentes entre sí, con la siguiente configuración:

$y_i = \alpha + \beta x_i + \epsilon_i$ , con 5 variables independientes.
2 grupos, con tamaños aproximadamente iguales (aunque esto puede variar) $n_1, n_2$
Se realizarán miles de regresiones similares simultáneamente, por lo que se debe realizar algún tipo de corrección de hipótesis múltiples.

Un enfoque que me sugirieron es usar una prueba Z:

$Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)}$

Otro que he visto sugerido en este tablero es introducir una variable ficticia para agrupar y reescribir el modelo como:

$y_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_i$ , donde es la variable de agrupación, codificada como 0, 1. $g$

Mi pregunta es, ¿en qué se diferencian estos dos enfoques (por ejemplo, diferentes supuestos, flexibilidad)? ¿Es uno más apropiado que el otro? Sospecho que esto es bastante básico, pero cualquier aclaración sería muy apreciada.

regression hypothesis-testing multiple-regression cashoes
fuente

Creo que las respuestas y los comentarios a una pregunta similar pueden proporcionar algunas de las aclaraciones que busca.

whuber

Gracias whuber. Estaba familiarizado con esa respuesta. De la discusión a continuación, la respuesta aceptada (y sus comentarios allí) me dejó la impresión de que comparar los coeficientes de 2 ajustes separados no era apropiado. ¿Se aplica una prueba z a los coeficientes de los ajustes separados incorrecto o es que la codificación de variable ficticia es simplemente más fácil y proporciona una respuesta equivalente?

cashoes

1

Consulte el último párrafo de mi respuesta ("La principal limitación ..."). La prueba Z es válida suponiendo que es grande (de lo contrario, se usa en la prueba) y las desviaciones estándar estimadas no son muy diferentes entre sí. Ningún enfoque es mejor cuando las desviaciones estándar difieren mucho (más o menos, más de una proporción de 3: 1).

n_{i}

$n_i$

S E b_{i}

$SEb_i$

whuber

13

Los dos enfoques son diferentes.

Supongamos que los errores estándar estimados de las dos regresiones son y . Luego, debido a que la regresión combinada (con todas las interacciones coeficiente-ficticio) se ajusta a los mismos coeficientes, tiene los mismos residuos, por lo que su error estándar puede calcularse como $s_1$ $s_2$

s = \sqrt{\frac{(n_{1} - p) s_{1}^{2} + (n_{2} - p) s_{2}^{2})}{n_{1} + n_{2} - 2 p}} .

$s = \sqrt{\frac{(n_1-p) s_1^2 + (n_2-p) s_2^2)}{n_1 + n_2 - 2 p}}.$

El número de parámetros es igual a en el ejemplo: cinco pendientes y una intersección en cada regresión. $p$ $6$

Supongamos que estima un parámetro en una regresión, estima el mismo parámetro en la otra regresión y estima su diferencia en la regresión combinada. Entonces sus errores estándar están relacionados por $b_1$ $b_2$ $b$

S E (b) = s \sqrt{(S E (b_{1}) / s_{1})^{2} + (S E (b_{2}) / s_{2})^{2}} .

$SE(b) = s \sqrt{(SE(b_1)/s_1)^2 + (SE(b_2)/s_2)^2}.$

Si no ha realizado la regresión combinada, pero solo tiene estadísticas para las regresiones separadas, conecte la ecuación anterior para . Este será el denominador para la prueba t. Evidentemente, no es lo mismo que el denominador presentado en la pregunta. $s$

La suposición hecha por la regresión combinada es que las variaciones de los residuos son esencialmente las mismas en ambas regresiones separadas. Sin embargo, si este no es el caso, la prueba z tampoco será buena (a menos que los tamaños de muestra sean grandes): querrá usar una prueba CABF o una prueba t Welch-Satterthwaite.

whuber
fuente

9

La forma más directa de comprobar una diferencia en el coeficiente entre dos grupos es incluir un término de interacción en su regresión, que es casi lo que describe en su pregunta. El modelo que ejecutarías es el siguiente:

$y_i = \alpha + \beta x_i + \gamma g_i + \delta (x_i \times g_i) + \varepsilon_i$

Tenga en cuenta que he incluido la variable de grupo como un regresor separado en el modelo. Con este modelo, una prueba con la hipótesis nula es una prueba de que los coeficientes son los mismos entre los dos grupos. Para ver esto, primero dejemos en el modelo anterior. Luego, obtenemos la siguiente ecuación para el grupo 0: $t$ $H_0: \delta = 0$ $g_i = 0$

$y_i = \alpha + \beta x_i + \varepsilon_i$

Ahora, si , entonces tenemos: $g_i = 1$

$y_i = (\alpha + \gamma) + (\beta + \delta) x_i + \varepsilon_i$

Por lo tanto, cuando es 0, entonces dos grupos tienen el mismo coeficiente. $\delta$

Matt Blackwell
fuente

Gracias por corregir el modelo (creo que mi versión anterior simplemente exige que la intercepción sea la misma en ambos grupos ...). Más concretamente, ¿sería esto equivalente a la prueba z que publiqué anteriormente?

cashoes

y_{i} = α + β x_{i} + γ g_{i} + ε_{i}

$y_i = \alpha + \beta x_i + \gamma g_i + \varepsilon_i$

y_{i} = α + β x_{i} + γ g_{i} + δ (x_{i} \times g_{i}) + ε_{i}

$y_i = \alpha + \beta x_i + \gamma g_i + \delta (x_i \times g_i) + \varepsilon_i$

@ matt-blackwell ¿es esto conceptualmente lo mismo que estratificar el modelo por cada valor de g? (es decir, b sería el coeficiente de x cuando g = 0, y beta + delta cuando g = 1) Aunque aprecio que la estratificación no permite la comparación estadística.

bobmcpop

¿Cuál es la forma correcta de probar las diferencias significativas entre coeficientes?

Respuestas: