Analizando coeficientes de regresión logística

12

Aquí hay una lista de coeficientes de regresión logística (el primero es una intersección)

-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
 0
 1.03152408392552
 1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393

Me resulta extraño que la intersección sea tan baja y tengo un coeficiente que en realidad es igual a 0. No estoy completamente seguro de cómo interpretaría esto. ¿El 0 indica que la variable específica no tiene ningún efecto en el modelo? ¿Pero la intercepción que se hace al ingresar una columna de uno es de repente realmente importante? ¿O son mis datos simplemente basura y el modelo no puede ajustarse adecuadamente a ellos?

shiu6rewgu
fuente
2
¿Cuál es el rango o la desviación estándar de sus otras variables? ¿Existe una gran diferencia entre la desviación estándar de la variable con estimación cero en comparación con las demás? Puede esperar un coeficiente de cero si la desviación estándar es pequeña en comparación con los demás (precisión numérica). También interceptar básicamente significa que tiene variables que tienen promedios grandes (lejos de cero). Centrar sus variables daría una intercepción más interpretable, y no cambiará las versiones beta de las otras variables (aparte del error de algoritmo iterativo).
probabilidadislogica
1
Si restas 1027 de todos los valores de la sexta variable, tu intercepción sería bastante cercana a 0. ¿Te haría sentir mejor? :-)
whuber
44
Mostrar una lista de coeficientes como este, sin ningún contexto en absoluto, es probable que diga "Joe tiene 31, ¿no es mucho?" sin decir 31 qué . 31 autos? Mucho. 31 niños? ¡Un montón de mucho! 31 dolares? No mucho.
Peter Flom - Restablece a Monica
1
Con respecto al coeficiente de cero: podría ver que esto sucede como un artefacto de poner todos sus coeficientes en XL antes de pegarlos aquí, algo que parece consistente con la gran cantidad de lugares decimales que generalmente estamos viendo. Tal vez una de esas celdas XL estaba configurada para redondear a enteros, produciendo el cero. Me han pasado cosas como esta.
rolando2
¡Gracias a todos por su aporte! Realmente aprecio a todos y cada uno de ustedes! Muchas de mis preguntas fueron respondidas
shiu6rewgu

Respuestas:

16


logit=β0+β1x1+β2x2+...+βkxk
e2.718281828
e2=7.389056
7.3890561+7.389056=0.880797

9.8×103050/(1+0)), nos da 0 de nuevo. Por lo tanto, lo que su resultado le dice es que su evento (sea lo que sea) simplemente no ocurre cuando todas sus variables son iguales a 0. Por supuesto, depende de lo que estamos hablando, pero no encuentro nada demasiado notable sobre esta. Una ecuación de regresión logística estándar (por ejemplo, sin un término al cuadrado) supone necesariamente que la relación entre una covariable y la probabilidad de éxito aumenta o disminuye monotónicamente.. Eso significa que siempre se hace más y más grande (o más y más pequeño), por lo que, si vas lo suficientemente lejos en una dirección, obtendrás números tan pequeños que mi computadora no puede distinguirlos de 0. Ese es solo el naturaleza de la bestia Como sucede, para su modelo, ir muy lejos es ir a donde sus valores covariables son iguales a 0.

En cuanto al coeficiente de 0, significa que esa variable no tiene efecto, como sugiere. Ahora, es bastante razonable que una variable no tenga un efecto, sin embargo, básicamente nunca obtendrá un coeficiente de exactamente 0. No sé por qué ocurrió en este caso; Los comentarios ofrecen algunas sugerencias posibles. Puedo ofrecer otro, que es que puede que no haya variación en esa variable. Por ejemplo, si tenía una variable que codificaba el sexo, pero solo las mujeres de su muestra. No sé si esa es la respuesta real (R, por ejemplo, regresa NAen ese caso, pero el software difiere), es solo otra sugerencia.

gung - Restablece a Monica
fuente
2
3067003746010460
10

Interpretando la intercepción

Puede pensar en la regresión logística como una posibilidad posterior de ser un '1'. La intersección representa un previo en las categorías derivadas del conjunto de datos: específicamente, es la estimación empírica de log (p (Y = 1) / p (Y = 0), por sí sola cuando el modelo solo tiene una intersección, para los casos en las clases de 'referencia' cuando hay covariables categóricas, y para los casos en que las covariables están en 0 de manera más general (pero menos interpretable). Por lo tanto, su número fuertemente negativo probablemente le dice que los '1' son raros entre los casos en su muestra caracterizados por teniendo todas las covariables en 0. Nuevamente, puede que no haya observaciones allí, por lo que no vale la pena preocuparse por el valor de intercepción. Esta discusión es bastante clara.

Debido a esta práctica separación de preocupaciones entre los parámetros, puede corregir el desequilibrio de categoría entrenando en una muestra mejor equilibrada y solo ajustando la intercepción . Vea a King y Zeng para una discusión exhaustiva.

conjugadoprior
fuente
El enlace a "esta discusión" parece haber muerto. ¿Alguna posibilidad de recuperar este enlace?
Alexey Grigorev
1
@ alexey-grigorev Actualicé el enlace de UCLA
conjugateprior
y obtuvo un voto negativo. Muy raro.
conjugateprior