¿Cómo puede agregar un segundo IV hacer que el primer IV sea significativo?

64

Tengo lo que probablemente sea una pregunta simple, pero me desconcierta en este momento, así que espero que me puedan ayudar.

Tengo un modelo de regresión de mínimos cuadrados, con una variable independiente y una variable dependiente. La relación no es significativa. Ahora agrego una segunda variable independiente. Ahora la relación entre la primera variable independiente y la variable dependiente se vuelve significativa.

¿Como funciona esto? Probablemente esto esté demostrando algún problema con mi comprensión, pero para mí, pero no veo cómo agregar esta segunda variable independiente puede hacer que la primera sea significativa.

EvKohl
fuente
44
Este es un tema muy discutido en este sitio. Esto probablemente se deba a la colinealidad. Haga una búsqueda de "colinealidad" y encontrará docenas de hilos relevantes. Sugiero leer algunas de las respuestas a stats.stackexchange.com/questions/14500/…
Macro
3
El posible duplicado de predictores significativos se vuelve no significativo en la regresión logística múltiple . Hay muchos hilos de los cuales este es efectivamente un duplicado, ese fue el más cercano que pude encontrar en menos de dos minutos
Macro
3
Este es el problema opuesto al del hilo que @macro acaba de encontrar, pero los motivos son muy similares.
Peter Flom - Restablece a Monica
3
@Macro, creo que tienes razón en que esto puede ser un duplicado, pero creo que el problema aquí es ligeramente diferente de las 2 preguntas anteriores. El OP no se refiere a la importancia del modelo como un todo, ni a las variables que se vuelven no significativas con IV adicionales. Sospecho que esto no se trata de multicolinealidad, sino de poder o posiblemente supresión.
gung - Restablece a Monica
3
también, @gung, la supresión en un modelo lineal solo ocurre cuando hay colinealidad: la diferencia se trata de interpretación, por lo que "no se trata de multicolinealidad sino de posible supresión" establece una dicotomía engañosa
Macro

Respuestas:

78

Aunque la colinealidad (de las variables predictoras) es una posible explicación, me gustaría sugerir que no es una explicación esclarecedora porque sabemos que la colinealidad está relacionada con la "información común" entre los predictores, por lo que no hay nada misterioso o contraintuitivo sobre el lado efecto de introducir un segundo predictor correlacionado en el modelo.

Consideremos entonces el caso de dos predictores que son verdaderamente ortogonales : no hay absolutamente ninguna colinealidad entre ellos. Todavía puede suceder un cambio notable en la importancia.

Designe las variables predictoras y X 2 y deje que Y nombre la predicción. La regresión de Y frente a X 1 no será significativa cuando la variación en Y alrededor de su media no se reduzca apreciablemente cuando X 1 se use como la variable independiente. Cuando que la variación está fuertemente asociado con una segunda variable X 2 , sin embargo, la situación cambia. Recuerde que la regresión múltiple de Y contra X 1 y X 2 es equivalente aX1X2YYX1YX1X2YX1X2

  1. Regrese por separado y X 1 contra X 2 .YX1X2

  2. Regrese los residuos contra los residuos X 1 .YX1

Los residuos del primer paso han eliminado el efecto de . Cuando X 2 se correlaciona estrechamente con Y , esto puede exponer una cantidad relativamente pequeña de variación que previamente se había enmascarado. Si esta variación está asociada con X 1 , obtenemos un resultado significativo.X2X2YX1


Quizás todo esto se aclare con un ejemplo concreto. Para comenzar, usemos Rpara generar dos variables independientes ortogonales junto con algún error aleatorio independiente :ε

n <- 32
set.seed(182)
u <-matrix(rnorm(2*n), ncol=2)
u0 <- cbind(u[,1] - mean(u[,1]), u[,2] - mean(u[,2]))
x <- svd(u0)$u
eps <- rnorm(n)

(El svdpaso asegura que las dos columnas de la matriz x(que representan y X 2 ) son ortogonales, descartando la colinealidad como una posible explicación de cualquier resultado posterior).X1X2

Luego, cree como una combinación lineal de las X y el error. He ajustado los coeficientes para producir el comportamiento contrario a la intuición:YX

y <-  x %*% c(0.05, 1) + eps * 0.01

Esta es una realización del modelo con n = 32 casos.Yyoyorenorte(0,05X1+1.00X2,0,012)norte=32

Mira las dos regresiones en cuestión. Primero , retroceda contra X 1 solamente:YX1

> summary(lm(y ~ x[,1]))
...
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576   0.032423  -0.079    0.937
x[, 1]       0.068950   0.183410   0.376    0.710

El alto valor p de 0.710 muestra que es completamente no significativo.X1

A continuación , retroceda contra X 1 y X 2 :YX1X2

> summary(lm(y ~ x))
...
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.002576   0.001678  -1.535    0.136    
x1           0.068950   0.009490   7.265 5.32e-08 ***
x2           1.003276   0.009490 105.718  < 2e-16 ***

De repente, en presencia de , X 1 es muy significativo, como lo indican los valores p cercanos a cero para ambas variables.X2X1

Podemos visualizar este comportamiento mediante una matriz de diagrama de dispersión de las variables , X 2 e Y junto con los residuos utilizados en la caracterización de dos pasos de la regresión múltiple anterior. Debido a que X 1 y X 2 son ortogonales, los residuos de X 1 serán los mismos que X 1 y, por lo tanto, no es necesario volver a dibujarlos. Incluiremos los residuos de Y contra X 2 en la matriz de diagrama de dispersión, dando esta cifra:X1X2YX1X2X1X1YX2

lmy <- lm(y ~ x[,2])
d <- data.frame(X1=x[,1], X2=x[,2], Y=y, RY=residuals(lmy))
plot(d)

Aquí hay una representación de ello (con un poco de prettificación):

SPM

Esta matriz de gráficos tiene cuatro filas y cuatro columnas, que contaré desde la parte superior y de izquierda a derecha.

Aviso:

  • El diagrama de dispersión en la segunda fila y la primera columna confirma la ortogonalidad de estos predictores: la línea de mínimos cuadrados es horizontal y la correlación es cero.(X1,X2)

  • El diagrama de dispersión en la tercera fila y la primera columna exhibe la relación leve pero completamente insignificante reportada por la primera regresión de Y contra X 1 . (El coeficiente de correlación, ρ , es solo 0.07 ).(X1,Y)YX1ρ0,07

  • El diagrama de dispersión en la tercera fila y la segunda columna muestra la fuerte relación entre Y y la segunda variable independiente. (El coeficiente de correlación es 0.996 ).(X2,Y)Y0,996

  • La cuarta fila examina las relaciones entre los residuos de (regresados ​​contra X 2 ) y otras variables:YX2

    • La escala vertical muestra que los residuos son (relativamente) bastante pequeños: no pudimos verlos fácilmente en el diagrama de dispersión de contra X 2 .YX2

    • Los residuos están fuertemente correlacionados con ( ρ = 0.80 ). La regresión contra X 2 ha desenmascarado este comportamiento previamente oculto.X1ρ=0,80X2

    • Por construcción, no hay correlación restante entre los residuos y .X2

    • Hay poca correlación entre y estos residuos ( ρ = 0.09 ). Esto muestra cómo los residuos pueden comportarse de manera completamente diferente a la propia Y. Así es como X 1 puede revelarse repentinamente como un contribuyente significativo a la regresión.Yρ=0,09YX1

Finalmente, vale la pena señalar que las dos estimaciones del coeficiente (ambas iguales a 0.06895 , no lejos del valor previsto de 0.05 ) coinciden solo porque X 1 y X 2 son ortogonales. Excepto en experimentos diseñados, es raro que la ortogonalidad se mantenga exactamente. Una desviación de la ortogonalidad generalmente hace que cambien las estimaciones de coeficientes.X10,068950,05X1X2

whuber
fuente
Entonces, entiendo que explica la variabilidad que X 2 no tiene. ¿Requiere esto que X 2 sea ​​(más) significativo que X 1 ? ¿O puede X 1 hacerse significativo sin importancia de X 2 ? X1X2X2X1X1X2
Ronald
@Ronald, creo que las respuestas a sus preguntas son no y sí, respectivamente. Puede averiguarlo modificando el ejemplo en esta respuesta: cambie los coeficientes (0.05 y 0.01) en el modelo y el número de casos ( ) para ver qué sucede. n=32
whuber
23

Creo que este tema se ha discutido antes en este sitio bastante a fondo, si supiera dónde buscar. Por lo tanto, probablemente agregaré un comentario más adelante con algunos enlaces a otras preguntas, o puedo editarlo para proporcionar una explicación más completa si no puedo encontrar ninguna.

Hay dos posibilidades básicas: en primer lugar, el otro IV puede absorber parte de la variabilidad residual y, por lo tanto, aumentar la potencia de la prueba estadística del IV inicial. La segunda posibilidad es que tenga una variable supresora. Este es un tema muy contrario a la intuición, pero puede encontrar información aquí *, aquí o este excelente hilo de CV .

* Tenga en cuenta que necesita leer todo el camino hasta la parte inferior para llegar a la parte que explica las variables supresoras, puede simplemente avanzar hasta allí, pero será mejor leer todo.


Editar: como prometí, estoy agregando una explicación más completa de mi punto con respecto a cómo el otro IV puede absorber parte de la variabilidad residual y, por lo tanto, aumentar el poder de la prueba estadística del IV inicial. @whuber agregó un ejemplo impresionante, pero pensé que podría agregar un ejemplo complementario que explique este fenómeno de una manera diferente, lo que puede ayudar a algunas personas a comprender el fenómeno con mayor claridad. Además, demuestro que el segundo IV no tiene que estar más fuertemente asociado (aunque, en la práctica, casi siempre será para que ocurra este fenómeno).

Las covariables en un modelo de regresión pueden probarse con pruebas dividiendo la estimación del parámetro por su error estándar, o pueden probarse con pruebas F dividiendo las sumas de cuadrados. Cuando se usan SS tipo III, estos dos métodos de prueba serán equivalentes (para obtener más información sobre los tipos de SS y las pruebas asociadas, puede ser útil leer mi respuesta aquí: Cómo interpretar las SS tipo I ). Para aquellos que recién comienzan a aprender sobre los métodos de regresión, las pruebas t son a menudo el foco porque parecen más fáciles de entender para las personas. Sin embargo, este es un caso en el que creo que mirar la tabla ANOVA es más útil. Recordemos la tabla ANOVA básica para un modelo de regresión simple: tFt

FuenteSSdfSRAFX1(y^yo-y¯)21SSX1dfX1SRAX1SRArmisResidual(yyo-y^yo)2norte-(1+1)SSrmisdfrmisTotal(yyo-y¯)2norte-1

Aquí es la media de Y , y i es el valor observado de y para la unidad (por ejemplo, paciente) i , y i es el valor predicho de modelo para la unidad i , y N es el número total de unidades en el estudio. Si tiene un modelo de regresión múltiple con dos covariables ortogonales, la tabla ANOVA podría construirse así: y¯yyyoyyoy^yoyonorte

FuenteSSdfSRAFX1(y^X1yoX¯2-y¯)21SSX1dfX1SRAX1SRArmisX2(y^X¯1X2yo-y¯)21SSX2dfX2SRAX2SRArmisResidual(yyo-y^yo)2norte-(2+1)SSrmisdfrmisTotal(yyo-y¯)2norte-1

Aquí y x 1 i, por ejemplo, es el valor predicho para la unidadisi su valor observado parax1era su valor real observado, pero su valor observado parax2fue la media dex2. Por supuesto, es posible queˉx2seael valor observado dex2y^X1yoX¯2yoX1X2X2X¯2 X2para alguna observación, en cuyo caso no hay que hacer ajustes, pero este no suele ser el caso. Tenga en cuenta que este método para crear la tabla ANOVA solo es válido si todas las variables son ortogonales; Este es un caso altamente simplificado creado con fines expositivos.

Si consideramos la situación en la que se utilizan los mismos datos para ajustar un modelo con y sin , entonces la y observadaX2y valores de y serán los mismos. Por lo tanto, el SS total debe ser el mismo en ambas tablas ANOVA. Además, si x 1 y x 2 son ortogonales entre sí, entonces S S x 1 será idéntico en ambas tablas ANOVA también. Entonces, ¿cómo es que puede haber sumas de cuadrados asociados con x 2 en la tabla? ¿De dónde vinieron si el total de SS y S S x 1y¯X1X2SSX1X2SSX1¿son lo mismo? La respuesta es que vinieron de . Los df x 2 también se toman de df res . SSresdfX2dfres

Ahora la prueba de x 1 es la M SFX1 dividida porMSresen ambos casos. ComoMS x 1 es el mismo, la diferencia en la importancia de esta prueba proviene del cambio enMSres, que ha cambiado de dos maneras: comenzó con menos SS, porque algunos se asignaron ax2, pero esos son dividido por menos df, ya que algunos grados de libertad también se asignaron ax2. El cambio en el significado / poder de lapruebaF(y equivalentemente elMETROSX1METROSresMETROSX1METROSresX2X2F -test, en este caso) se debe a cómo se intercambian esos dos cambios. Si se le da más SS a x 2 , en relación con el df que se le da a x 2 , entonces la resolución M S disminuirá, lo que hará que la F asociada con x 1 aumente y p se vuelva más significativo. tX2X2METROSresFX1pags

El efecto de no tiene que ser mayor que x 1 para que esto ocurra, pero si no es así, los cambios en los valores p serán bastante pequeños. La única forma en que terminará cambiando entre la no significancia y la significación es si los valores p son solo ligeramente en ambos lados de alfa. Aquí hay un ejemplo, codificado en : X2X1pagspagsR

x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2)     # [1] 0
set.seed(11628)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1  = lm(y~x1)
model12 = lm(y~x1+x2)

anova(model1)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  3.9568 0.05307 .
# Residuals 43 57.745  1.3429                  
#  ...
anova(model12)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  4.2471 0.04555 *
# x2         1  5.198  5.1979  4.1546 0.04785 *
# Residuals 42 52.547  1.2511                  
#  ...

De hecho, no tiene que ser significativo en absoluto. Considerar: X2

set.seed(1201)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  3.8461 0.05636 .
# ...
anova(model12)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  4.0740 0.04996 *
# x2         1  3.162  3.1620  3.5478 0.06656 .
# ...

Sin duda, estos no son nada como el dramático ejemplo en la publicación de @ whuber, pero pueden ayudar a las personas a comprender lo que está sucediendo aquí.

gung - Restablece a Monica
fuente
1
(+1) para "Primero, el otro IV puede absorber parte de la variabilidad residual y, por lo tanto, aumentar el poder de la prueba estadística del IV inicial", que @whuber dio un buen ejemplo de
Macro
(+1) Al principio le das tres enlaces. Desafortunadamente, el primero (externo) está roto (error 404). Aparte de eso: usted dice que hay "dos posibilidades básicas": el segundo IV agregado aumenta la potencia para probar el primer IV (y esta es exactamente la situación descrita por Whuber y Wayne en sus respuestas) o hay una variable supresora (¿cuál, por cierto, el primero o el segundo?). Mi pregunta: ¿son realmente dos situaciones distintas? ¿O es esencialmente lo mismo, tal vez visto un poco diferente? Sería genial si pudieras ampliar eso.
ameba dice Reinstate Monica
@gung, gracias por la respuesta. Ttnphns comienza con un enlace a un documento que discute la supresión y algunos otros efectos relacionados, y este documento afirma que "la definición más generalmente aceptada de una variable supresora (Tzelgov y Henik, 1991) [es]" una variable que aumenta la validez predictiva de otra variable (o conjunto de variables) por su inclusión en una ecuación de regresión ”". Esto suena exactamente como lo que OP preguntó aquí, por eso me confundió que dijeras que podría haber dos razones diferentes .
ameba dice Reinstate Monica
1
@amoeba, el punto es que tienes 2 mecanismos diferentes. Es decir, tiene 2 DAG subyacentes diferentes. La manifestación externa puede ser similar, y el poder adicional puede ser más o menos, pero la razón por la cual la 2da variable ayuda difiere b / c la relación de la 2da variable con x1 e y difiere. Si no está claro, es posible que deba hacer una nueva pregunta; Es difícil hacer demasiado en los comentarios.
gung - Restablece a Monica
17

Parece que la pregunta del OP se puede interpretar de dos maneras diferentes:

  1. Matemáticamente, ¿cómo funciona OLS, de modo que agregar una variable independiente puede cambiar los resultados de una manera inesperada?

  2. ¿Cómo puede modificar mi modelo agregando una variable cambiar el efecto de otra variable independiente en el modelo?

Ya hay varias buenas respuestas para la pregunta # 1. Y la pregunta # 2 puede ser tan obvia para los expertos que asumen que el OP debe estar haciendo la pregunta # 1 en su lugar. Pero creo que la pregunta # 2 merece una respuesta, que sería algo así como:

Comencemos con un ejemplo. Digamos que tenía las alturas, la edad, el género, etc., de varios niños, y quería hacer una regresión para predecir su altura.

Comienzas con un modelo ingenuo que usa el género como la variable independiente. Y no es estadísticamente significativo. (Cómo podría ser, estás mezclando niños de 3 años y adolescentes).

Luego agrega la edad y de repente no solo la edad es significativa, sino también el género. ¿Cómo es posible?

Por supuesto, en mi ejemplo, puedes ver claramente que la edad es un factor importante en la altura de un niño / adolescente. Probablemente el factor más importante sobre el que tiene datos. El género también puede importar, especialmente para niños mayores y adultos, pero el género solo es un modelo pobre de la altura de un niño.

La edad más el género es un modelo razonable (aunque, por supuesto, simplificado) que es adecuado para la tarea. Si agrega otros datos (interacción de edad y género, dieta, estatura de los padres, etc.), podría hacer un modelo aún mejor, que por supuesto aún se simplificaría en comparación con la gran cantidad de factores que realmente determinan la estatura de un niño, pero, de nuevo, todos los modelos son versiones simplificadas de la realidad. (Un mapa del mundo con escala 1: 1 no es demasiado útil para un viajero).

Su modelo original (solo género) está demasiado simplificado, tan simplificado que está esencialmente roto. Pero eso no significa que el género no sea útil en un modelo mejor.

EDITAR: sugerencia agregada de gung re: el término de interacción de edad y género.

Wayne
fuente
1
Presumiblemente, +1, nb, edad y género también necesitarán un término de interacción.
gung - Restablece a Monica
1
+1 Ese es un gran ejemplo porque es muy simple e intuitivamente claro, y al mismo tiempo se ajusta exactamente a la situación descrita con mucho más detalle pero solo de manera abstracta por @whuber en su respuesta aceptada aquí.
ameba dice Reinstate Monica
10

Este hilo ya tiene tres respuestas excelentes (+1 a cada una). Mi respuesta es un comentario extenso e ilustración al punto hecho por @gung (que me tomó un tiempo entender):

Hay dos posibilidades básicas: en primer lugar, el otro IV puede absorber parte de la variabilidad residual y, por lo tanto, aumentar la potencia de la prueba estadística del IV inicial. La segunda posibilidad es que tenga una variable supresora.

X1X2ynorteRnorteyX1X2(con la "matriz del sombrero" simplemente como un proyector). Los lectores que no estén familiarizados con este enfoque pueden buscar, por ejemplo, en The Elements of Statistical Learning , Sección 3.2, o en muchos otros libros.

"Mejora"

La siguiente figura muestra ambas posibilidades enumeradas por @gung. Considere solo la parte azul al principio (es decir, ignore todas las líneas rojas):

Mejora y supresión

X1X2Xyy^

X2yX1α90yX1X1 por lo tanto, no es significativo.

X2X1X2X1X2X2yβα90X1

Otra forma de decirlo es que la prueba ahora compara la longitud de OF con OG, y no con OC como antes; OF es pequeño e "insignificante" en comparación con OC, pero lo suficientemente grande como para ser "significativo" en comparación con OG.

Esta es exactamente la situación presentada por @whuber, @gung y @Wayne en sus respuestas. No sé si este efecto tiene un nombre estándar en la literatura de regresión, por lo que lo llamaré "mejora".

Supresión

α=90β=90X1 solo fue exactamente cero, se mantendrá exactamente cero.

No es así en la supresión.

X3X1X2X3XX1X3X1Xy

X1X1y

ameba dice Reinstate Monica
fuente
1
Descubrí que tu respuesta es la más fácil de entender con la ayuda de la interpretación geométrica. ¡Soberbio!
zsljulius
1
α=0 0yX1yX1Cor(X1,y)=1X1yyX1
qoheleth
α=90