Regresión lineal + confusión

8

Supongamos que me gustaría acceder a la magnitud del efecto y significación entre el resultado Y y la variable X ajustado por factor de confusión Z .

Mi pregunta es si hay alguna diferencia para determinar el tamaño del efecto y la importancia de X entre el siguiente escenario.

  1. poner variables y factores de confusión juntos en un modelo de regresión lineal. Este medio modelo de regresión sólo en forma de Y ~ X + Z , a continuación, calcular el coeficiente y su valor de p de X .
  2. Obtenga el residual, R de Y ~ Z , y luego ajuste el modelo de regresión de R ~ X , luego calcule el coeficiente y su valor p de X (de R ~ X).

Aprendo el factor de confusión de aquí .

Editar -----

Agradezco la respuesta de @Gordon Smyth. Sin embargo, de un estudio de simulación (código a continuación), donde comparé la tasa de descubrimiento falso del método1, el método2 y el método3 de la respuesta de Gordon Smyth, descubrí sorprendentemente que el método2 tiene una tasa de falsos positivos bastante baja.

Entiendo que el método 1 es "libro de texto" correcto. Me pregunto qué es exactamente lo que está mal con el método2 lógicamente. Además, "Todos los modelos están equivocados, pero algunos son útiles".

p1 = p2 = p3 = c()
i=0
while(i<10000){
  y = rnorm(10)
  x = rnorm(10)
  c = rnorm(10)


  # method 1
  p1[i] = summary(lm(y~x + c))$coefficients[2,4]
  # method 2
  p2[i] = summary(lm(lm(y ~ c)$res ~ x))$coefficients[2,4]
  # method 3
  p3[i] = summary(lm(lm(y ~ c)$res~lm(x ~ c)$res))$coefficients[2,4]


  i = i+1
}


# number of false positive.
sum(p1<0.05) # 484
sum(p2<0.05) # 450
sum(p3<0.05) # 623
WCMC
fuente
1
No estoy claro por qué te sorprende que los tres métodos estén haciendo lo que te dije que harían en mi respuesta hace un año. Te dije que el método 2 sería conservador (que es lo que has encontrado) y que el método 3 sería anticonservador (que de nuevo es lo que has encontrado). De todos modos, el verdadero problema con su método 2 solo aparece cuando X y Z están correlacionados entre sí, así como con Y. He expandido mi respuesta ahora para explicar esto con más detalle. Ahora doy un ejemplo numérico que muestra cuán gravemente malo puede ser el método 2.
Gordon Smyth

Respuestas:

13

Necesita ajustar X e Y para el factor de confusión

El primer enfoque (usando regresión múltiple) siempre es correcto. Su segundo enfoque no es correcto como lo ha indicado, pero puede hacerse casi correcto con un ligero cambio. Para hacer el segundo enfoque correcto, es necesario retroceder tanto y por separado en . Me gusta escribir para los residuos de la regresión de en y para los residuos de la regresión de y . Podemos interpretar como ajustado para (igual que su ) y comoYXZY.ZYZX.ZXZY.ZYZRX.ZXajustado para . A continuación, puede retroceder en .ZY.ZX.Z

Con este cambio, los dos enfoques darán el mismo coeficiente de regresión y los mismos residuos. Sin embargo, el segundo enfoque seguirá calculando incorrectamente los grados residuales de libertad como lugar de (donde es el número de valores de datos para cada variable). Como resultado, el estadístico de prueba para del segundo enfoque será un poco demasiado grande y el valor p será un poco demasiado pequeño. Si el número de observaciones es grande, entonces los dos enfoques convergerán y esta diferencia no importará.n1n2nXn

Es fácil ver por qué los grados residuales de libertad del segundo enfoque no serán del todo correctos. Ambos enfoques regresión tanto en y . El primer enfoque lo hace en un solo paso, mientras que el segundo enfoque lo hace en dos pasos. Sin embargo, el segundo enfoque "olvida" que resultó de una regresión en y por lo tanto descuida restar el grado de libertad para esta variable.YXZY.ZZ

El diagrama variable agregado

Sanford Weisberg (Regresión lineal aplicada, 1985) solía recomendar trazar vs en un diagrama de dispersión. Esto se denomina una trama variable de agregado , y se la dio una representación visual eficaz de la relación entre y después de ajustar por .Y.ZX.ZYXZ

Si no ajusta X, entonces subestima el coeficiente de regresión

El segundo enfoque como lo dijo originalmente, que regresa a en , es demasiado conservador. Subestimará la importancia de la relación entre y ajustando para porque subestima el tamaño del coeficiente de regresión. Esto se produce porque está en regresión en el conjunto de en lugar de sólo en la parte de que es independiente de . En la fórmula estándar para el coeficiente de regresión en regresión lineal simple, el numerador (covarianza de con ) será correcto pero el denominador (la varianza deY.ZXYXZY.ZXXZY.ZXX) será demasiado grande. La covariable correcta siempre tiene una varianza menor que hace .X.ZX

Para hacer este preciso, su Método 2 voluntad bajo-estimar el coeficiente de regresión parcial para en un factor de donde es el coeficiente de correlación de Pearson entre y .X1r2rXZ

Un ejemplo numérico

Aquí hay un pequeño ejemplo numérico para mostrar que el método de la variable agregada representa el coeficiente de regresión de en correctamente, mientras que su segundo enfoque (Método 2) puede ser arbitrariamente incorrecto.YX

Primero simulamos , e :XZY

> set.seed(20180525)
> Z <- 10*rnorm(10)
> X <- Z+rnorm(10)
> Y <- X+Z

Aquí entonces los verdaderos coeficientes de regresión para y son ambos 1 y la intersección es 0.Y=X+ZXZ

Luego formamos los dos vectores residuales (igual que mi ) y :RY.ZX.Z

> R <- Y.Z <- residuals(lm(Y~Z))
> X.Z <- residuals(lm(X~Z))

La regresión múltiple completa con e como predictores da exactamente los coeficientes de regresión verdaderos:XY

> coef(lm(Y~X+Z))
(Intercept)           X           Z 
   5.62e-16    1.00e+00    1.00e+00 

El enfoque variable agregado (Método 3) también da el coeficiente para exactamente correcto:X

> coef(lm(R~X.Z))
(Intercept)         X.Z 
  -6.14e-17    1.00e+00 

Por el contrario, su Método 2 encuentra que el coeficiente de regresión es solo 0.01:

> coef(lm(R~X))
(Intercept)           X 
    0.00121     0.01170 

Por lo tanto, su Método 2 subestima el verdadero tamaño del efecto en un 99%. El factor de subestimación viene dado por la correlación entre y :XZ

> 1-cor(X,Z)^2
[1] 0.0117

Para ver todo esto visualmente, la gráfica variable agregada de vs muestra una relación lineal perfecta con la unidad de pendiente, que representa la verdadera relación marginal entre y :RX.ZYX

Gráfico variable agregado

Por el contrario, la gráfica de frente a la no ajustada no muestra ninguna relación. La verdadera relación se ha perdido por completo:RX

Trazado incorrecto con X sin corregir

Gordon Smyth
fuente
1
¿Está seguro de que ambos enfoques darán los mismos coeficientes de regresión? Si fuera cierto, en lugar de hacer una regresión múltiple con k variables independientes, podríamos hacer k regresiones con una sola variable independiente y obtener exactamente el mismo resultado de manera más rápida.
Tomek Tarczynski
1
Probablemente me estoy perdiendo algo. Cuando intento simular esto, obtengo un coeficiente diferente para X. El código R está debajo de set.seed (1234) k <- 100 x <- runif (k) z <- x + runif (k) y <- 5 * x - 3 * z + runif (k) # x coeficiente 5.1252 lm (y ~ x + z) modelo <- lm (y ~ z) res <- modelo $ residuales #x coeficiente 2.82 modelo2 <- lm (res ~ x)
Tomek Tarczynski
1
@TomekTarczynski Tienes razón, olvidé señalar que X debe ser regresado en Ztambién. He editado mi respuesta para corregirlo.
Gordon Smyth
Hola Gordon, ¿hay algún problema con el segundo enfoque que no sea el tema del grado de libertad? por ejemplo, en términos de lógica?
WCMC
Hola Gordon, edité mi pregunta. Te agradecería que pudieras echar un vistazo cuando tengas tiempo.
WCMC