Aquí hay una lista de coeficientes de regresión logística (el primero es una intersección)
-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
0
1.03152408392552
1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393
Me resulta extraño que la intersección sea tan baja y tengo un coeficiente que en realidad es igual a 0. No estoy completamente seguro de cómo interpretaría esto. ¿El 0 indica que la variable específica no tiene ningún efecto en el modelo? ¿Pero la intercepción que se hace al ingresar una columna de uno es de repente realmente importante? ¿O son mis datos simplemente basura y el modelo no puede ajustarse adecuadamente a ellos?
regression
logistic
shiu6rewgu
fuente
fuente
Respuestas:
En cuanto al coeficiente de 0, significa que esa variable no tiene efecto, como sugiere. Ahora, es bastante razonable que una variable no tenga un efecto, sin embargo, básicamente nunca obtendrá un coeficiente de exactamente 0. No sé por qué ocurrió en este caso; Los comentarios ofrecen algunas sugerencias posibles. Puedo ofrecer otro, que es que puede que no haya variación en esa variable. Por ejemplo, si tenía una variable que codificaba el sexo, pero solo las mujeres de su muestra. No sé si esa es la respuesta real (R, por ejemplo, regresa
NA
en ese caso, pero el software difiere), es solo otra sugerencia.fuente
Interpretando la intercepción
Puede pensar en la regresión logística como una posibilidad posterior de ser un '1'. La intersección representa un previo en las categorías derivadas del conjunto de datos: específicamente, es la estimación empírica de log (p (Y = 1) / p (Y = 0), por sí sola cuando el modelo solo tiene una intersección, para los casos en las clases de 'referencia' cuando hay covariables categóricas, y para los casos en que las covariables están en 0 de manera más general (pero menos interpretable). Por lo tanto, su número fuertemente negativo probablemente le dice que los '1' son raros entre los casos en su muestra caracterizados por teniendo todas las covariables en 0. Nuevamente, puede que no haya observaciones allí, por lo que no vale la pena preocuparse por el valor de intercepción. Esta discusión es bastante clara.
Debido a esta práctica separación de preocupaciones entre los parámetros, puede corregir el desequilibrio de categoría entrenando en una muestra mejor equilibrada y solo ajustando la intercepción . Vea a King y Zeng para una discusión exhaustiva.
fuente