Cuando analizo mis variables en dos modelos de regresión logística separados (univariados), obtengo lo siguiente:
Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003
Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046
Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47), p<.001
Constant: B=-0.447, SE=.205, Exp(B)=0.64, p=.029
pero cuando los ingreso en un solo modelo de regresión logística múltiple, obtengo:
Predictor 1: B= 0.556, SE=.406, Exp(B)=1.74, 95% CI=(0.79, 3.86), p=.171
Predictor 2: B= 1.094, SE=.436, Exp(B)=2.99, 95% CI=(1.27, 7.02), p=.012
Constant: B=-0.574, SE=.227, Exp(B)=0.56, p=.012
Ambos predictores son dicotómicos (categóricos). He verificado la multicolinealidad.
No estoy seguro de haber proporcionado suficiente información, pero no puedo entender por qué el predictor 1 ha pasado de ser significativo a no significativo y por qué las razones de probabilidades son tan diferentes en el modelo de regresión múltiple. ¿Alguien puede proporcionar una explicación básica de lo que está sucediendo?
Respuestas:
Hay varias razones (ninguna de las cuales está específicamente relacionada con la regresión logística, pero puede ocurrir en cualquier regresión).
Correlación de regresores: sus regresores pueden estar relacionados entre sí, midiendo efectivamente algo similar. Digamos que su modelo logit es explicar el estado del mercado laboral (trabajando / no trabajando) en función de la experiencia y la edad. Individualmente, ambas variables están positivamente relacionadas con el estado, ya que a los empleados más experimentados / mayores (descartando empleados muy antiguos por el argumento) les resulta más fácil encontrar trabajo que los recién graduados. Ahora, obviamente, las dos variables están fuertemente relacionadas, ya que debes ser mayor para tener más experiencia. Por lo tanto, las dos variables básicamente "compiten" por explicar el estado, lo que puede, especialmente en muestras pequeñas, dar como resultado que ambas variables "pierdan", ya que ninguno de los efectos puede ser lo suficientemente fuerte y lo suficientemente preciso cuando se controla para que el otro obtenga estimaciones significativas Básicamente, se pregunta: ¿cuál es el efecto positivo de otro año de experiencia cuando se mantiene constante la edad? Puede haber muy pocos o ningún empleado en su conjunto de datos para responder a esa pregunta, por lo que el efecto se calculará de manera imprecisa y dará lugar a grandes valores p.
Modelos especificados erróneamente: la teoría subyacente para las estadísticas t / valores p requiere que se estime un modelo especificado correctamente. Ahora, si solo retrocede en un predictor, hay muchas posibilidades de que ese modelo univariante sufra un sesgo variable omitido. Por lo tanto, todas las apuestas están apagadas sobre cómo se comportan los valores p. Básicamente, debe tener cuidado de confiar en ellos cuando su modelo no sea correcto.
fuente
No hay una razón particular por la cual esto no debería suceder. La regresión múltiple hace una pregunta diferente de la regresión simple. En particular, la regresión múltiple (en este caso, la regresión logística múltiple) pregunta sobre la relación entre las variables dependientes y las variables independientes, controlando las otras variables independientes. La regresión simple pregunta sobre la relación entre una variable dependiente y una variable (individual) independiente.
Si agrega el contexto de su estudio (p. Ej., ¿Cuáles son estas variables?), Es posible dar respuestas más específicas. Además, dado que las tres variables en su caso son dicotomías, podría presentarnos los datos con bastante facilidad ... solo se necesitan 8 líneas para resumir esto:
etc.
fuente