Coeficientes de regresión que cambian de signo después de incluir otros predictores

31

Imagina

Ejecuta una regresión lineal con cuatro predictores numéricos (IV1, ..., IV4)
Cuando solo se incluye IV1 como predictor, la beta estandarizada es +.20
Cuando también incluye IV2 a IV4, el signo del coeficiente de regresión estandarizado de IV1 cambia -.25(es decir, se vuelve negativo).

Esto da lugar a algunas preguntas:

Con respecto a la terminología, ¿llama a esto un "efecto supresor"?
¿Qué estrategias usarías para explicar y comprender este efecto?
¿Tiene algún ejemplo de tales efectos en la práctica y cómo explicó y entendió estos efectos?

regression predictor Jeromy Anglim
fuente

¿Cómo explicaría una situación en la que los coeficientes cambian de signo cuando se incluyen predictores, pero definitivamente no hay ninguna multicolinealidad involucrada (como sugerirían valores bajos de VIF)? Curiosamente, sin embargo, al incluir predictores, el signo cambió a lo que inicialmente esperaba que fuera (positivo). Fue negativo en una regresión de una variable independiente simple (la matriz de correlación mostró una correlación negativa mínima con la variable dependiente) pero al instante se volvió positiva con otros predictores incluidos.

@John, ¿podría eliminar su comentario y publicar su pregunta como una pregunta separada en este sitio (es decir, usando "hacer pregunta en la parte superior". Si cree que su pregunta está relacionada con esta pregunta, agregue un enlace a esta pregunta en su nueva pregunta.

Jeromy Anglim

2

Un artículo que escribí con Seth Dutter podría ayudar a aclarar las cosas. Está escrito principalmente desde una perspectiva geométrica. Aquí está el enlace: arxiv.org/abs/1503.02722 . -Brian Knaeble, B. y Dutter, S. (2015). Reversiones de estimaciones de mínimos cuadrados y estimación independiente del modelo para direcciones de efectos únicos. preimpresión de arXiv arXiv: 1503.02722.

26

La multicolinealidad es el sospechoso habitual como mencionó JoFrhwld. Básicamente, si sus variables están correlacionadas positivamente, entonces los coeficientes estarán correlacionados negativamente, lo que puede conducir a un signo incorrecto en uno de los coeficientes.

Una comprobación sería realizar una regresión de componentes principales o una regresión de cresta. Esto reduce la dimensionalidad del espacio de regresión, manejando la multicolinealidad. Termina con estimaciones sesgadas pero posiblemente un MSE más bajo y signos corregidos. Ya sea que vaya con esos resultados particulares o no, es una buena verificación de diagnóstico. Si aún recibe cambios en los signos, puede ser teóricamente interesante.

ACTUALIZAR

Siguiendo el comentario en la respuesta de John Christie, esto podría ser interesante. La inversión en asociación (magnitud o dirección) son ejemplos de la paradoja de Simpson, la paradoja de Lord y los efectos de supresión. Las diferencias se relacionan esencialmente con el tipo de variable. Es más útil comprender el fenómeno subyacente en lugar de pensar en términos de una "paradoja" o efecto particular. Para una perspectiva causal, el documento a continuación hace un buen trabajo al explicar por qué y citaré detenidamente su introducción y conclusión para abrir su apetito.

El papel del razonamiento causal en la comprensión de la paradoja de Simpson, la paradoja de Lord y el efecto de supresión: selección covariable en el análisis de estudios observacionales

Tu et al presentan un análisis de la equivalencia de tres paradojas, concluyendo que las tres simplemente reiteran el cambio no sorprendente en la asociación de cualquiera de las dos variables cuando una tercera variable está controlada estadísticamente. Llamo a esto no sorprendente porque la inversión o el cambio de magnitud es común en el análisis condicional. Para evitar cualquiera, debemos evitar el análisis condicional por completo. ¿Qué tienen las paradojas de Simpson y Lord o el efecto de supresión, más allá de señalar lo obvio, que atrae los intereses intermitentes y a veces alarmistas que se ven en la literatura?

[...]

En conclusión, no se puede enfatizar demasiado que, aunque las paradojas de Simpson y relacionadas revelan los peligros de utilizar criterios estadísticos para guiar el análisis causal, no tienen ni las explicaciones del fenómeno que pretenden representar ni los consejos sobre cómo evitarlos. Las explicaciones y soluciones se encuentran en el razonamiento causal que se basa en el conocimiento previo, no en criterios estadísticos. Ya es hora de que dejemos de tratar los signos y síntomas malinterpretados ('paradojas'), y continuamos con el negocio de manejar la enfermedad ('causalidad'). Con razón deberíamos dirigir nuestra atención al problema perenne de la selección de covariables para el análisis causal utilizando datos no experimentales.

ars
fuente

1

Gracias por la sugerencia de explorar la regresión de cresta o PCA. Solo un punto secundario con respecto a su comentario "si sus variables están positivamente correlacionadas, entonces los coeficientes se correlacionarán negativamente, lo que conducirá a la reversión de signos": los predictores positivamente correlacionados generalmente no conducen a la reversión de signos.

Jeromy Anglim

Lo sentimos, esa es una explicación fallida de una línea escrita a toda prisa. Solucionado ahora, gracias.

ars

Gran punto sobre la importancia de los mecanismos causales.

Jeromy Anglim

14

Creo que efectos como estos son frecuentemente causados por la colinealidad (ver esta pregunta ) Creo que el libro sobre modelado multinivel de Gelman y Hill habla de ello. El problema es que IV1está correlacionado con uno o más de los otros predictores, y cuando todos están incluidos en el modelo, su estimación se vuelve errática.

Si el cambio de coeficiente se debe a la colinealidad, entonces no es realmente interesante informar, porque no se debe a la relación entre sus predictores con el resultado, sino a la relación entre los predictores.

Lo que he visto sugerido para resolver este problema es la residualización. Primero, ajusta un modelo para IV2 ~ IV1, luego toma los residuos de ese modelo como rIV2. Si todas sus variables están correlacionadas, realmente debería residualizarlas todas. Puedes elegir hacerlo así

rIV2 <- resid(IV2 ~ IV1)
rIV3 <- resid(IV3 ~ IV1 + rIV2)
rIV4 <- resid(IV4 ~ IV1 + rIV2 + rIV3)

Ahora, ajuste el modelo final con

DV ~ IV1 + rIV2 + rIV3 + rIV4

Ahora, el coeficiente para rIV2representa el efecto independiente de IV2dada su correlación con IV1. Escuché que no obtendrás el mismo resultado si residiste en un orden diferente, y que elegir el orden de residualización es realmente una decisión decisiva dentro de tu investigación.

JoFrhwld
fuente

Gracias por la respuesta. Tuve estos pensamientos. (a) Multicolinealidad: estoy de acuerdo. Sin ella, los coeficientes no deberían cambiar. (b) ¿Es interesante? De hecho, creo que el cambio de signo puede tener interpretaciones teóricas interesantes en algunos casos; pero quizás no desde una perspectiva de predicción pura. (c) Residualización: me gustaría saber qué piensan otras personas sobre este enfoque.

Jeromy Anglim

No estoy seguro si la multicolinealidad podría ser interesante. Digamos que tuvo algún resultado O, y sus predictores son Incomey Father's Income. El hecho de que Incomeesté correlacionado Father's Incomees intrínsecamente interesante, pero ese hecho sería cierto sin importar el valor de O. Es decir, podría establecer que Olos predictores son todos colineales sin siquiera recopilar sus datos de resultados, ¡o incluso sin saber cuál es el resultado! Esos hechos no deberían ser especialmente más interesantes una vez que sepas que Orealmente es así Education.

JoFrhwld

Estoy sugiriendo que el efecto supresor puede ser teóricamente interesante, de los cuales presumiblemente la multicolinealidad proporciona un punto de partida para una explicación.

Jeromy Anglim

5

Ver la paradoja de Simpson . En resumen, el efecto principal observado puede revertirse cuando se agrega una interacción a un modelo. En la página vinculada, la mayoría de los ejemplos son categóricos, pero hay una figura en la parte superior de la página que uno podría imaginar continuamente. Por ejemplo, si tiene un predictor categórico y continuo, entonces el predictor continuo podría voltear fácilmente el signo si se agrega el categórico y dentro de cada categoría el signo es diferente al de la puntuación general.

John
fuente

Buen punto. Todos los ejemplos de la paradoja de Simpson se aplican a las variables categóricas. ¿Es el concepto de una variable supresora el equivalente numérico?

Jeromy Anglim

Coeficientes de regresión que cambian de signo después de incluir otros predictores

Respuestas: