Tengo lo que probablemente sea una pregunta simple, pero me desconcierta en este momento, así que espero que me puedan ayudar.
Tengo un modelo de regresión de mínimos cuadrados, con una variable independiente y una variable dependiente. La relación no es significativa. Ahora agrego una segunda variable independiente. Ahora la relación entre la primera variable independiente y la variable dependiente se vuelve significativa.
¿Como funciona esto? Probablemente esto esté demostrando algún problema con mi comprensión, pero para mí, pero no veo cómo agregar esta segunda variable independiente puede hacer que la primera sea significativa.
Respuestas:
Aunque la colinealidad (de las variables predictoras) es una posible explicación, me gustaría sugerir que no es una explicación esclarecedora porque sabemos que la colinealidad está relacionada con la "información común" entre los predictores, por lo que no hay nada misterioso o contraintuitivo sobre el lado efecto de introducir un segundo predictor correlacionado en el modelo.
Consideremos entonces el caso de dos predictores que son verdaderamente ortogonales : no hay absolutamente ninguna colinealidad entre ellos. Todavía puede suceder un cambio notable en la importancia.
Designe las variables predictoras y X 2 y deje que Y nombre la predicción. La regresión de Y frente a X 1 no será significativa cuando la variación en Y alrededor de su media no se reduzca apreciablemente cuando X 1 se use como la variable independiente. Cuando que la variación está fuertemente asociado con una segunda variable X 2 , sin embargo, la situación cambia. Recuerde que la regresión múltiple de Y contra X 1 y X 2 es equivalente aX1 X2 Y Y X1 Y X1 X2 Y X1 X2
Regrese por separado y X 1 contra X 2 .Y X1 X2
Regrese los residuos contra los residuos X 1 .Y X1
Los residuos del primer paso han eliminado el efecto de . Cuando X 2 se correlaciona estrechamente con Y , esto puede exponer una cantidad relativamente pequeña de variación que previamente se había enmascarado. Si esta variación está asociada con X 1 , obtenemos un resultado significativo.X2 X2 Y X1
Quizás todo esto se aclare con un ejemplo concreto. Para comenzar, usemosε
R
para generar dos variables independientes ortogonales junto con algún error aleatorio independiente :(ElX1 X2
svd
paso asegura que las dos columnas de la matrizx
(que representan y X 2 ) son ortogonales, descartando la colinealidad como una posible explicación de cualquier resultado posterior).Luego, cree como una combinación lineal de las X y el error. He ajustado los coeficientes para producir el comportamiento contrario a la intuición:Y X
Esta es una realización del modelo con n = 32 casos.Y∼i i dnorte( 0.05 X1+ 1.00 X2, 0.012) n = 32
Mira las dos regresiones en cuestión. Primero , retroceda contra X 1 solamente:Y X1
El alto valor p de 0.710 muestra que es completamente no significativo.X1
A continuación , retroceda contra X 1 y X 2 :Y X1 X2
De repente, en presencia de , X 1 es muy significativo, como lo indican los valores p cercanos a cero para ambas variables.X2 X1
Podemos visualizar este comportamiento mediante una matriz de diagrama de dispersión de las variables , X 2 e Y junto con los residuos utilizados en la caracterización de dos pasos de la regresión múltiple anterior. Debido a que X 1 y X 2 son ortogonales, los residuos de X 1 serán los mismos que X 1 y, por lo tanto, no es necesario volver a dibujarlos. Incluiremos los residuos de Y contra X 2 en la matriz de diagrama de dispersión, dando esta cifra:X1 X2 Y X1 X2 X1 X1 Y X2
Aquí hay una representación de ello (con un poco de prettificación):
Esta matriz de gráficos tiene cuatro filas y cuatro columnas, que contaré desde la parte superior y de izquierda a derecha.
Aviso:
El diagrama de dispersión en la segunda fila y la primera columna confirma la ortogonalidad de estos predictores: la línea de mínimos cuadrados es horizontal y la correlación es cero.( X1, X2)
El diagrama de dispersión en la tercera fila y la primera columna exhibe la relación leve pero completamente insignificante reportada por la primera regresión de Y contra X 1 . (El coeficiente de correlación, ρ , es solo 0.07 ).( X1, Y) Y X1 ρ 0,07
El diagrama de dispersión en la tercera fila y la segunda columna muestra la fuerte relación entre Y y la segunda variable independiente. (El coeficiente de correlación es 0.996 ).( X2, Y) Y 0,996
La cuarta fila examina las relaciones entre los residuos de (regresados contra X 2 ) y otras variables:Y X2
La escala vertical muestra que los residuos son (relativamente) bastante pequeños: no pudimos verlos fácilmente en el diagrama de dispersión de contra X 2 .Y X2
Los residuos están fuertemente correlacionados con ( ρ = 0.80 ). La regresión contra X 2 ha desenmascarado este comportamiento previamente oculto.X1 ρ = 0.80 X2
Por construcción, no hay correlación restante entre los residuos y .X2
Hay poca correlación entre y estos residuos ( ρ = 0.09 ). Esto muestra cómo los residuos pueden comportarse de manera completamente diferente a la propia Y. Así es como X 1 puede revelarse repentinamente como un contribuyente significativo a la regresión.Y ρ = 0.09 Y X1
Finalmente, vale la pena señalar que las dos estimaciones del coeficiente (ambas iguales a 0.06895 , no lejos del valor previsto de 0.05 ) coinciden solo porque X 1 y X 2 son ortogonales. Excepto en experimentos diseñados, es raro que la ortogonalidad se mantenga exactamente. Una desviación de la ortogonalidad generalmente hace que cambien las estimaciones de coeficientes.X1 0,06895 0,05 X1 X2
fuente
Creo que este tema se ha discutido antes en este sitio bastante a fondo, si supiera dónde buscar. Por lo tanto, probablemente agregaré un comentario más adelante con algunos enlaces a otras preguntas, o puedo editarlo para proporcionar una explicación más completa si no puedo encontrar ninguna.
Hay dos posibilidades básicas: en primer lugar, el otro IV puede absorber parte de la variabilidad residual y, por lo tanto, aumentar la potencia de la prueba estadística del IV inicial. La segunda posibilidad es que tenga una variable supresora. Este es un tema muy contrario a la intuición, pero puede encontrar información aquí *, aquí o este excelente hilo de CV .
* Tenga en cuenta que necesita leer todo el camino hasta la parte inferior para llegar a la parte que explica las variables supresoras, puede simplemente avanzar hasta allí, pero será mejor leer todo.
Editar: como prometí, estoy agregando una explicación más completa de mi punto con respecto a cómo el otro IV puede absorber parte de la variabilidad residual y, por lo tanto, aumentar el poder de la prueba estadística del IV inicial. @whuber agregó un ejemplo impresionante, pero pensé que podría agregar un ejemplo complementario que explique este fenómeno de una manera diferente, lo que puede ayudar a algunas personas a comprender el fenómeno con mayor claridad. Además, demuestro que el segundo IV no tiene que estar más fuertemente asociado (aunque, en la práctica, casi siempre será para que ocurra este fenómeno).
Las covariables en un modelo de regresión pueden probarse con pruebas dividiendo la estimación del parámetro por su error estándar, o pueden probarse con pruebas F dividiendo las sumas de cuadrados. Cuando se usan SS tipo III, estos dos métodos de prueba serán equivalentes (para obtener más información sobre los tipos de SS y las pruebas asociadas, puede ser útil leer mi respuesta aquí: Cómo interpretar las SS tipo I ). Para aquellos que recién comienzan a aprender sobre los métodos de regresión, las pruebas t son a menudo el foco porque parecen más fáciles de entender para las personas. Sin embargo, este es un caso en el que creo que mirar la tabla ANOVA es más útil. Recordemos la tabla ANOVA básica para un modelo de regresión simple:t F t
Aquí es la media de Y , y i es el valor observado de y para la unidad (por ejemplo, paciente) i , y i es el valor predicho de modelo para la unidad i , y N es el número total de unidades en el estudio. Si tiene un modelo de regresión múltiple con dos covariables ortogonales, la tabla ANOVA podría construirse así:y¯ y yyo y yo y^yo yo norte
Aquí y x 1 i, por ejemplo, es el valor predicho para la unidadisi su valor observado parax1era su valor real observado, pero su valor observado parax2fue la media dex2. Por supuesto, es posible queˉx2seael valor observado dex2y^X1 iX¯2 yo X1 X2 X2 X¯2 X2 para alguna observación, en cuyo caso no hay que hacer ajustes, pero este no suele ser el caso. Tenga en cuenta que este método para crear la tabla ANOVA solo es válido si todas las variables son ortogonales; Este es un caso altamente simplificado creado con fines expositivos.
Si consideramos la situación en la que se utilizan los mismos datos para ajustar un modelo con y sin , entonces la y observadaX2 y valores de y serán los mismos. Por lo tanto, el SS total debe ser el mismo en ambas tablas ANOVA. Además, si x 1 y x 2 son ortogonales entre sí, entonces S S x 1 será idéntico en ambas tablas ANOVA también. Entonces, ¿cómo es que puede haber sumas de cuadrados asociados con x 2 en la tabla? ¿De dónde vinieron si el total de SS y S S x 1y¯ X1 X2 SSX1 X2 SSX1 ¿son lo mismo? La respuesta es que vinieron de . Los df x 2 también se toman de df res . SSres dfX2 dfres
Ahora la prueba de x 1 es la M SF X1 dividida porMSresen ambos casos. ComoMS x 1 es el mismo, la diferencia en la importancia de esta prueba proviene del cambio enMSres, que ha cambiado de dos maneras: comenzó con menos SS, porque algunos se asignaron ax2, pero esos son dividido por menos df, ya que algunos grados de libertad también se asignaron ax2. El cambio en el significado / poder de lapruebaF(y equivalentemente elMETROSX1 METROSres METROSX1 METROSres X2 X2 F -test, en este caso) se debe a cómo se intercambian esos dos cambios. Si se le da más SS a x 2 , en relación con el df que se le da a x 2 , entonces la resolución M S disminuirá, lo que hará que la F asociada con x 1 aumente y p se vuelva más significativo. t X2 X2 METROSres F X1 pags
El efecto de no tiene que ser mayor que x 1 para que esto ocurra, pero si no es así, los cambios en los valores p serán bastante pequeños. La única forma en que terminará cambiando entre la no significancia y la significación es si los valores p son solo ligeramente en ambos lados de alfa. Aquí hay un ejemplo, codificado en :X2 X1 pags pags
R
De hecho, no tiene que ser significativo en absoluto. Considerar:X2
Sin duda, estos no son nada como el dramático ejemplo en la publicación de @ whuber, pero pueden ayudar a las personas a comprender lo que está sucediendo aquí.
fuente
Parece que la pregunta del OP se puede interpretar de dos maneras diferentes:
Matemáticamente, ¿cómo funciona OLS, de modo que agregar una variable independiente puede cambiar los resultados de una manera inesperada?
¿Cómo puede modificar mi modelo agregando una variable cambiar el efecto de otra variable independiente en el modelo?
Ya hay varias buenas respuestas para la pregunta # 1. Y la pregunta # 2 puede ser tan obvia para los expertos que asumen que el OP debe estar haciendo la pregunta # 1 en su lugar. Pero creo que la pregunta # 2 merece una respuesta, que sería algo así como:
Comencemos con un ejemplo. Digamos que tenía las alturas, la edad, el género, etc., de varios niños, y quería hacer una regresión para predecir su altura.
Comienzas con un modelo ingenuo que usa el género como la variable independiente. Y no es estadísticamente significativo. (Cómo podría ser, estás mezclando niños de 3 años y adolescentes).
Luego agrega la edad y de repente no solo la edad es significativa, sino también el género. ¿Cómo es posible?
Por supuesto, en mi ejemplo, puedes ver claramente que la edad es un factor importante en la altura de un niño / adolescente. Probablemente el factor más importante sobre el que tiene datos. El género también puede importar, especialmente para niños mayores y adultos, pero el género solo es un modelo pobre de la altura de un niño.
La edad más el género es un modelo razonable (aunque, por supuesto, simplificado) que es adecuado para la tarea. Si agrega otros datos (interacción de edad y género, dieta, estatura de los padres, etc.), podría hacer un modelo aún mejor, que por supuesto aún se simplificaría en comparación con la gran cantidad de factores que realmente determinan la estatura de un niño, pero, de nuevo, todos los modelos son versiones simplificadas de la realidad. (Un mapa del mundo con escala 1: 1 no es demasiado útil para un viajero).
Su modelo original (solo género) está demasiado simplificado, tan simplificado que está esencialmente roto. Pero eso no significa que el género no sea útil en un modelo mejor.
EDITAR: sugerencia agregada de gung re: el término de interacción de edad y género.
fuente
Este hilo ya tiene tres respuestas excelentes (+1 a cada una). Mi respuesta es un comentario extenso e ilustración al punto hecho por @gung (que me tomó un tiempo entender):
"Mejora"
La siguiente figura muestra ambas posibilidades enumeradas por @gung. Considere solo la parte azul al principio (es decir, ignore todas las líneas rojas):
Otra forma de decirlo es que la prueba ahora compara la longitud de OF con OG, y no con OC como antes; OF es pequeño e "insignificante" en comparación con OC, pero lo suficientemente grande como para ser "significativo" en comparación con OG.
Esta es exactamente la situación presentada por @whuber, @gung y @Wayne en sus respuestas. No sé si este efecto tiene un nombre estándar en la literatura de regresión, por lo que lo llamaré "mejora".
Supresión
No es así en la supresión.
fuente