Imagina
- Ejecuta una regresión lineal con cuatro predictores numéricos (IV1, ..., IV4)
- Cuando solo se incluye IV1 como predictor, la beta estandarizada es
+.20
- Cuando también incluye IV2 a IV4, el signo del coeficiente de regresión estandarizado de IV1 cambia
-.25
(es decir, se vuelve negativo).
Esto da lugar a algunas preguntas:
- Con respecto a la terminología, ¿llama a esto un "efecto supresor"?
- ¿Qué estrategias usarías para explicar y comprender este efecto?
- ¿Tiene algún ejemplo de tales efectos en la práctica y cómo explicó y entendió estos efectos?
regression
predictor
Jeromy Anglim
fuente
fuente
Respuestas:
La multicolinealidad es el sospechoso habitual como mencionó JoFrhwld. Básicamente, si sus variables están correlacionadas positivamente, entonces los coeficientes estarán correlacionados negativamente, lo que puede conducir a un signo incorrecto en uno de los coeficientes.
Una comprobación sería realizar una regresión de componentes principales o una regresión de cresta. Esto reduce la dimensionalidad del espacio de regresión, manejando la multicolinealidad. Termina con estimaciones sesgadas pero posiblemente un MSE más bajo y signos corregidos. Ya sea que vaya con esos resultados particulares o no, es una buena verificación de diagnóstico. Si aún recibe cambios en los signos, puede ser teóricamente interesante.
ACTUALIZAR
Siguiendo el comentario en la respuesta de John Christie, esto podría ser interesante. La inversión en asociación (magnitud o dirección) son ejemplos de la paradoja de Simpson, la paradoja de Lord y los efectos de supresión. Las diferencias se relacionan esencialmente con el tipo de variable. Es más útil comprender el fenómeno subyacente en lugar de pensar en términos de una "paradoja" o efecto particular. Para una perspectiva causal, el documento a continuación hace un buen trabajo al explicar por qué y citaré detenidamente su introducción y conclusión para abrir su apetito.
fuente
Creo que efectos como estos son frecuentemente causados por la colinealidad (ver esta pregunta ) Creo que el libro sobre modelado multinivel de Gelman y Hill habla de ello. El problema es que
IV1
está correlacionado con uno o más de los otros predictores, y cuando todos están incluidos en el modelo, su estimación se vuelve errática.Si el cambio de coeficiente se debe a la colinealidad, entonces no es realmente interesante informar, porque no se debe a la relación entre sus predictores con el resultado, sino a la relación entre los predictores.
Lo que he visto sugerido para resolver este problema es la residualización. Primero, ajusta un modelo para
IV2 ~ IV1
, luego toma los residuos de ese modelo comorIV2
. Si todas sus variables están correlacionadas, realmente debería residualizarlas todas. Puedes elegir hacerlo asíAhora, ajuste el modelo final con
Ahora, el coeficiente para
rIV2
representa el efecto independiente deIV2
dada su correlación conIV1
. Escuché que no obtendrás el mismo resultado si residiste en un orden diferente, y que elegir el orden de residualización es realmente una decisión decisiva dentro de tu investigación.fuente
O
, y sus predictores sonIncome
yFather's Income
. El hecho de queIncome
esté correlacionadoFather's Income
es intrínsecamente interesante, pero ese hecho sería cierto sin importar el valor deO
. Es decir, podría establecer queO
los predictores son todos colineales sin siquiera recopilar sus datos de resultados, ¡o incluso sin saber cuál es el resultado! Esos hechos no deberían ser especialmente más interesantes una vez que sepas queO
realmente es asíEducation
.Ver la paradoja de Simpson . En resumen, el efecto principal observado puede revertirse cuando se agrega una interacción a un modelo. En la página vinculada, la mayoría de los ejemplos son categóricos, pero hay una figura en la parte superior de la página que uno podría imaginar continuamente. Por ejemplo, si tiene un predictor categórico y continuo, entonces el predictor continuo podría voltear fácilmente el signo si se agrega el categórico y dentro de cada categoría el signo es diferente al de la puntuación general.
fuente