Supongamos que me gustaría acceder a la magnitud del efecto y significación entre el resultado Y y la variable X ajustado por factor de confusión Z .
Mi pregunta es si hay alguna diferencia para determinar el tamaño del efecto y la importancia de X entre el siguiente escenario.
- poner variables y factores de confusión juntos en un modelo de regresión lineal. Este medio modelo de regresión sólo en forma de Y ~ X + Z , a continuación, calcular el coeficiente y su valor de p de X .
- Obtenga el residual, R de Y ~ Z , y luego ajuste el modelo de regresión de R ~ X , luego calcule el coeficiente y su valor p de X (de R ~ X).
Aprendo el factor de confusión de aquí .
Editar -----
Agradezco la respuesta de @Gordon Smyth. Sin embargo, de un estudio de simulación (código a continuación), donde comparé la tasa de descubrimiento falso del método1, el método2 y el método3 de la respuesta de Gordon Smyth, descubrí sorprendentemente que el método2 tiene una tasa de falsos positivos bastante baja.
Entiendo que el método 1 es "libro de texto" correcto. Me pregunto qué es exactamente lo que está mal con el método2 lógicamente. Además, "Todos los modelos están equivocados, pero algunos son útiles".
p1 = p2 = p3 = c()
i=0
while(i<10000){
y = rnorm(10)
x = rnorm(10)
c = rnorm(10)
# method 1
p1[i] = summary(lm(y~x + c))$coefficients[2,4]
# method 2
p2[i] = summary(lm(lm(y ~ c)$res ~ x))$coefficients[2,4]
# method 3
p3[i] = summary(lm(lm(y ~ c)$res~lm(x ~ c)$res))$coefficients[2,4]
i = i+1
}
# number of false positive.
sum(p1<0.05) # 484
sum(p2<0.05) # 450
sum(p3<0.05) # 623
fuente
Respuestas:
Necesita ajustar X e Y para el factor de confusión
El primer enfoque (usando regresión múltiple) siempre es correcto. Su segundo enfoque no es correcto como lo ha indicado, pero puede hacerse casi correcto con un ligero cambio. Para hacer el segundo enfoque correcto, es necesario retroceder tanto y por separado en . Me gusta escribir para los residuos de la regresión de en y para los residuos de la regresión de y . Podemos interpretar como ajustado para (igual que su ) y comoY X Z Y. Z Y Z X. Z X Z Y.Z Y Z R X.Z X ajustado para . A continuación, puede retroceder en .Z Y.Z X.Z
Con este cambio, los dos enfoques darán el mismo coeficiente de regresión y los mismos residuos. Sin embargo, el segundo enfoque seguirá calculando incorrectamente los grados residuales de libertad como lugar de (donde es el número de valores de datos para cada variable). Como resultado, el estadístico de prueba para del segundo enfoque será un poco demasiado grande y el valor p será un poco demasiado pequeño. Si el número de observaciones es grande, entonces los dos enfoques convergerán y esta diferencia no importará.n−1 n−2 n X n
Es fácil ver por qué los grados residuales de libertad del segundo enfoque no serán del todo correctos. Ambos enfoques regresión tanto en y . El primer enfoque lo hace en un solo paso, mientras que el segundo enfoque lo hace en dos pasos. Sin embargo, el segundo enfoque "olvida" que resultó de una regresión en y por lo tanto descuida restar el grado de libertad para esta variable.Y X Z Y.Z Z
El diagrama variable agregado
Sanford Weisberg (Regresión lineal aplicada, 1985) solía recomendar trazar vs en un diagrama de dispersión. Esto se denomina una trama variable de agregado , y se la dio una representación visual eficaz de la relación entre y después de ajustar por .Y.Z X.Z Y X Z
Si no ajusta X, entonces subestima el coeficiente de regresión
El segundo enfoque como lo dijo originalmente, que regresa a en , es demasiado conservador. Subestimará la importancia de la relación entre y ajustando para porque subestima el tamaño del coeficiente de regresión. Esto se produce porque está en regresión en el conjunto de en lugar de sólo en la parte de que es independiente de . En la fórmula estándar para el coeficiente de regresión en regresión lineal simple, el numerador (covarianza de con ) será correcto pero el denominador (la varianza deY.Z X Y X Z Y.Z X X Z Y.Z X X ) será demasiado grande. La covariable correcta siempre tiene una varianza menor que hace .X.Z X
Para hacer este preciso, su Método 2 voluntad bajo-estimar el coeficiente de regresión parcial para en un factor de donde es el coeficiente de correlación de Pearson entre y .X 1−r2 r X Z
Un ejemplo numérico
Aquí hay un pequeño ejemplo numérico para mostrar que el método de la variable agregada representa el coeficiente de regresión de en correctamente, mientras que su segundo enfoque (Método 2) puede ser arbitrariamente incorrecto.Y X
Primero simulamos , e :X Z Y
Aquí entonces los verdaderos coeficientes de regresión para y son ambos 1 y la intersección es 0.Y=X+Z X Z
Luego formamos los dos vectores residuales (igual que mi ) y :R Y.Z X.Z
La regresión múltiple completa con e como predictores da exactamente los coeficientes de regresión verdaderos:X Y
El enfoque variable agregado (Método 3) también da el coeficiente para exactamente correcto:X
Por el contrario, su Método 2 encuentra que el coeficiente de regresión es solo 0.01:
Por lo tanto, su Método 2 subestima el verdadero tamaño del efecto en un 99%. El factor de subestimación viene dado por la correlación entre y :X Z
Para ver todo esto visualmente, la gráfica variable agregada de vs muestra una relación lineal perfecta con la unidad de pendiente, que representa la verdadera relación marginal entre y :R X.Z Y X
Por el contrario, la gráfica de frente a la no ajustada no muestra ninguna relación. La verdadera relación se ha perdido por completo:R X
fuente