Tengo datos de un experimento de encuesta en el que los encuestados fueron asignados aleatoriamente a uno de cuatro grupos:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Si bien los tres grupos de tratamiento varían ligeramente en el estímulo aplicado, la principal distinción que me importa es entre los grupos de control y tratamiento. Entonces definí una variable ficticia Control
:
> summary(df$Control)
TRUE FALSE
59 191
En la encuesta, se pidió a los encuestados (entre otras cosas) que eligieran cuál de las dos cosas preferían:
> summary(df$Prefer)
A B NA's
152 93 5
Luego, después de recibir algún estímulo según lo determinado por su grupo de tratamiento (y ninguno si estaban en el grupo de control), se pidió a los encuestados que eligieran entre las mismas dos cosas:
> summary(df$Choice)
A B
149 101
Quiero saber si el hecho de estar en uno de los tres grupos de tratamiento tuvo un efecto en la elección que hicieron los encuestados en esta última pregunta. Mi hipótesis es que los encuestados que recibieron un tratamiento tienen más probabilidades de elegir A
que B
.
Dado que estoy trabajando con datos categóricos, he decidido usar una regresión logit (siéntase libre de intervenir si cree que es incorrecto). Dado que los encuestados fueron asignados al azar, tengo la impresión de que no necesariamente necesito controlar otras variables (por ejemplo, datos demográficos), por lo que las he dejado fuera para esta pregunta. Mi primer modelo fue simplemente el siguiente:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
Tengo la impresión de que la intersección siendo estadísticamente significativa no es algo que tenga un significado interpretable. Pensé que tal vez debería incluir un término de interacción de la siguiente manera:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Ahora el estado de los encuestados como en un grupo de tratamiento tiene el efecto esperado. ¿Era este un conjunto válido de pasos? ¿Cómo puedo interpretar el término de interacción ControlFALSE:PreferA
? ¿Los otros coeficientes siguen siendo las probabilidades de registro?
fuente
Respuestas:
Supongo que PreferA = 1 cuando se prefiere A y 0 de lo contrario y que ControlFALSE = 1 cuando se trata y 0 cuando se controla.
Las probabilidades de preferir A cuando una persona no lo hizo anteriormente y no recibió un tratamiento (ControlFALSE = 0 y PreferA = 0) es , es decir, hay 23 de esas personas que prefieren A por cada persona que prefiere B. Entonces, A es muy popular.exp( 3.135 ) = 23
El efecto del tratamiento se refiere a que una persona no prefería A previamente (PreferA = 0). En ese caso, las probabilidades de referencia disminuyen en un factor o cuando se somete al tratamiento. Entonces, las probabilidades de elegir A para aquellos que fueron tratados y que no prefirieron A anteriormente son , entonces hay 2.3 personas que prefieren A por cada persona que prefiere B. Entonces, entre este grupo A es aún más popular que B, pero menos que en el grupo no tratado / basal.exp( - 2.309 ) = .099 ( 1 - .099 ) × 100 % = - 90.1 % .099 ∗ 23 = 2.3
El efecto de preferir A se refiere previamente a una persona que es un control (ControlFALSE = 0). En ese caso, las probabilidades de referencia disminuyen en un factor o cuando alguien prefirió A previamente. (Entonces, aquellos que consideraron A anteriormente son mucho menos propensos a hacerlo ahora. ¿Tiene sentido?).006 - 99,4 %
El efecto de interacción compara el efecto del tratamiento para aquellas personas que prefirieron A previamente y aquellas que no lo hicieron. Si una persona prefirió A anteriormente (PreferA = 1), entonces la razón de posibilidades del tratamiento aumenta en un factor . Entonces, el odds ratio de tratamiento para aquellos que prefirieron A anteriormente es . Alternativamente, este odds ratio de tratamiento para aquellos que prefirieron A anteriormente podría calcularse como .17.3 × .099 = 1.71 exp ( 2.850 - 2.309 )exp( 2.850 ) = 17.3 17.3 × .099 = 1.71 exp( 2.850 - 2.309 )
Entonces, la constante exponencial le da las probabilidades de línea de base , los coeficientes exponenciados de los efectos principales le dan las razones de probabilidades cuando la otra variable es igual a 0, y el coeficiente exponencial de los términos de interacción le indica la razón por la cual la razón de probabilidades cambia .
fuente
ControlFALSE
tiene un valor p alto en el primer modelo y luego uno bastante bajo en el segundo modelo. Aplicando su respuesta a mi otra pregunta a este caso específico, dijo que esto podría suceder siControl
tuviera un efecto negativo en un grupoPrefer
y un efecto positivo en el otro.ControlFALSE
en el primer modelo es el efecto del tratamiento tanto para aquellos que prefirieron A previamente como para aquellos que no lo hicieron, mientras que el efecto en el segundo modelo es solo el efecto del tratamiento para aquellos que no prefirieron A previamente. Si eso está bien o no no es una pregunta estadística, pero si eso tiene o no un sentido sustantivo.También encontré que este documento es útil para interpretar la interacción en la regresión logística:
Chen, JJ (2003). Comunicación de información compleja: la interpretación de la interacción estadística en el análisis de regresión logística múltiple . Revista estadounidense de salud pública , 93 (9), 1376-1377.
fuente
Mi propia preferencia, cuando intento interpretar las interacciones en la regresión logística, es mirar las probabilidades predichas para cada combinación de variables categóricas. En su caso, esto sería solo 4 probabilidades:
Cuando tengo variables continuas, generalmente miro el valor predicho en la mediana, el primer y el tercer cuartil.
Aunque esto no llega directamente a la interpretación de cada coeficiente, encuentro que a menudo me permite a mí (y a mis clientes) ver lo que está sucediendo de manera clara.
fuente