Supongamos que tengo un resultado continuo y
y dos predictores factoriales, cada uno con dos niveles. Uno de mis predictores categóricos drug
, puede tener dos niveles ("A" o "B"), el otro es smokeYes
. Cuando ejecuto un modelo de regresión, puedo elegir la línea base o el nivel de referencia drug
para que sea "A", como hice en model1
:
set.seed(123)
y<-rnorm(100, 100, 10)
drug.ab<-factor(sample(c("A", "B"), 100, T), levels=c("A", "B"))
drug.ba<-factor(drug.ab, levels=c("B", "A"))
smoke<-factor(sample(c("Yes", "No"), 100, T), levels=c("No", "Yes"))
#model1:
coef(summary(lm(y~drug.ab*smoke)))
Estimate Std. Error t value Pr(>|t|)
(Intercept) 100.7484158 2.065091 48.7864379 1.465848e-69
drug.abB 0.9030541 2.796146 0.3229639 7.474250e-01
smokeYes -0.8693598 2.632484 -0.3302431 7.419359e-01
drug.abB:smokeYes 0.8709116 3.746684 0.2324487 8.166844e-01
O puedo establecer la línea de base en "B", como hice en model2
:
#model2:
coef(summary(lm(y~drug.ba*smoke)))
Estimate Std. Error t value Pr(>|t|)
(Intercept) 101.651469922 1.885161 53.9218978856 1.377147e-73
drug.baA -0.903054145 2.796146 -0.3229638818 7.474250e-01
smokeYes 0.001551843 2.666021 0.0005820821 9.995368e-01
drug.baA:smokeYes -0.870911601 3.746684 -0.2324486531 8.166844e-01
Mi pregunta es ¿por qué la estimación de smokeYes
difiere entre model1
y model2
? ¿Por qué no difiere por un cambio de signo como drug.baA
y el término de interacción?
tapply( y, interaction( drug.ab, smoke) ,mean)
. Una explicación más extensa podría implicar demostrar la diferencia entre los contrastes de tratamiento y los contrastes de suma.Respuestas:
Permítanme armar un ejemplo simple para que expliquen el concepto, luego podemos verificarlo con sus coeficientes.
Tenga en cuenta que al incluir tanto la variable ficticia "A / B" como el término de interacción, efectivamente le está dando a su modelo la flexibilidad para ajustar una intercepción diferente (usando el ficticio) y la pendiente (usando la interacción) en los datos "A" y los datos "B". En lo que sigue, realmente no importa si el otro predictor es una variable continua o, como en su caso, otra variable ficticia. Si hablo en términos de su "intercepción" y "pendiente", esto puede interpretarse como "nivel cuando el maniquí es cero" y "cambio de nivel cuando el maniquí se cambia de aX 0 0 1 " si tu prefieres.
Supongamos que el modelo ajustado de OLS solo en los datos "A" esy^= 12 + 5 x y en los datos "B" solo es y^= 11 + 7 x . Los datos pueden verse así:
Ahora supongamos que tomamos "A" como nuestro nivel de referencia y usamos una variable ficticiasi así que eso b = 1 para observaciones en el Grupo B pero b = 0 en el Grupo A. El modelo ajustado en todo el conjunto de datos es
Para observaciones en el Grupo A tenemosy^yo=β^0 0+β^1Xyo y podemos minimizar su suma de residuos al cuadrado configurando β^0 0= 12 y β^1= 5 . Para los datos del Grupo B,y^yo= (β^0 0+β^2) + (β^1+β^3)Xyo y podemos minimizar su suma de residuos al cuadrado tomando β^0 0+β^2= 11 y β^1+β^3= 7 . Está claro que podemos minimizar la suma de los residuos al cuadrado en la regresión general minimizando las sumas para ambos grupos, y que esto se puede lograr estableciendoβ^0 0= 12 y β^1= 5 (del Grupo A) y β^2= - 1 y β^3= 2 (dado que los datos "B" deben tener una intersección una más baja y una pendiente dos más alta). Observe cómo era necesaria la presencia de un término de interacción para que tengamos suficiente flexibilidad para minimizar la suma de los residuos al cuadrado para ambos grupos a la vez . Mi modelo ajustado será:
Cambie todo esto para que "B" sea el nivel de referencia yuna es una codificación variable ficticia para el Grupo A. ¿Puede ver que ahora debo ajustar el modelo?
Es decir, tomo la intercepción (11 ) y pendiente (7 7 ) de mi grupo de referencia "B", y utilizo el término ficticio y de interacción para ajustarlos para mi grupo "A". Estos ajustes esta vez están en la dirección inversa (necesito una intercepción más alta y una pendiente dos más baja ), por lo tanto, los signos se invierten en comparación con cuando tomé "A" como grupo de referencia, pero debería quedar claro por qué los otros coeficientes tienen no simplemente cambió de signo.
Comparemos eso con su salida. En una notación similar a la anterior, su primer modelo ajustado con la línea de base "A" es:
Su segundo modelo ajustado con la línea de base "B" es:
En primer lugar, verifiquemos que estos dos modelos den los mismos resultados. Pongamossiyo= 1 -unayo en la primera ecuación, y obtenemos:
Esto se simplifica a:
Un poco de aritmética rápida confirma que esto es lo mismo que el segundo modelo ajustado; Además, ahora debería quedar claro qué coeficientes se han intercambiado en signos y qué coeficientes simplemente se han ajustado a la otra línea de base.
En segundo lugar, veamos cuáles son los diferentes modelos ajustados en los grupos "A" y "B". Tu primer modelo da inmediatamentey^yo= 100.7484158 - 0.8693598Xyo para el grupo "A", y su segundo modelo da inmediatamente y^yo= 101.651469922 + 0.001551843Xyo para el grupo "B". Puede verificar que el primer modelo proporcione el resultado correcto para el grupo "B" sustituyendosiyo= 1 en su ecuación; el álgebra, por supuesto, funciona de la misma manera que el ejemplo más general anterior. Del mismo modo, puede verificar que el segundo modelo dé el resultado correcto para el grupo "A" configurandounayo= 1 .
En tercer lugar, dado que en su caso el otro regresor también era una variable ficticia, le sugiero que calcule las medias condicionales ajustadas para las cuatro categorías ("A" conx = 0 , "A" con x = 1 , "B" con x = 0 , "B" con x = 1 ) en ambos modelos y compruebe que comprende por qué están de acuerdo. Estrictamente hablando, esto es innecesario, ya que ya hemos realizado el álgebra más general anterior para mostrar que los resultados serán consistentes incluso siX es continuo , pero creo que sigue siendo un ejercicio valioso. No completaré los detalles ya que la aritmética es sencilla y está más en línea con el espíritu de la muy buena respuesta de JonB. Un punto clave a entender es que, cualquiera que sea el grupo de referencia que utilice, su modelo tiene suficiente flexibilidad para ajustarse a cada media condicional por separado. (Aquí es donde hace la diferencia que tuX es un maniquí para un factor binario en lugar de una variable continua; con predictores continuos generalmente no esperamos la media condicional estimada y^ para igualar la media muestral para cada combinación observada de predictores.) Calcule la media muestral para cada una de esas cuatro combinaciones de categorías, y debería encontrar que coinciden con sus medias condicionales ajustadas.
Código R para dibujar la trama y explorar modelos ajustados, predichosy^ y grupo significa
fuente
Eso tiene que ver con cómo se define la intersección. En el primer ejemplo, la intersección se define como aquellos que no fuman y que tienen drogas A. Los fumadores, que también tienen drogas A, tendrán un valor de 100.75 - 0.87 = 99.9 mientras que los fumadores que tienen drogas B tendrán valor de 100.75 + 0.90 - 0.87 + 0.87 = 101.65.
En el segundo ejemplo, la intersección se define como aquellos que no fuman y tienen drogas B. Los fumadores con drogas B tendrán un valor de 101.65 + 0.001 = 101.65, y los fumadores con drogas A tendrán un valor de 100.65 - 0.90 + 0.001-0.87 = 99.9.
Por lo tanto, todo suma, solo se trata de cómo se define la intersección, es decir, el nivel cuando todos los factores se establecen en la categoría de referencia.
fuente