Realicé una regresión logística multivariada con la variable dependiente que Y
es la muerte en un hogar de ancianos dentro de un cierto período de entrada y obtuve los siguientes resultados (tenga en cuenta que si las variables comienzan en A
ella es un valor continuo mientras que las que comienzan B
son categóricas):
Call:
glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0728 -0.2167 -0.1588 -0.1193 3.7788
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 20.048631 6.036637 3.321 0.000896 ***
A1 0.051167 0.016942 3.020 0.002527 **
B2 -0.664940 0.304299 -2.185 0.028878 *
B3 -2.825281 0.633072 -4.463 8.09e-06 ***
B4 -2.547931 0.957784 -2.660 0.007809 **
B5 -2.862460 1.385118 -2.067 0.038774 *
A6 -0.129808 0.041286 -3.144 0.001666 **
A7 0.020016 0.009456 2.117 0.034276 *
A8 -0.707924 0.253396 -2.794 0.005210 **
A9 0.003453 0.001549 2.229 0.025837 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 485.10 on 2206 degrees of freedom
Residual deviance: 417.28 on 2197 degrees of freedom
AIC: 437.28
Number of Fisher Scoring iterations: 7
(Intercept) A1 B2 B3 B4 B5 A6 A7 A8 A9
5.093426e+08 1.052499e+00 5.143045e-01 5.929197e-02 7.824340e-02 5.712806e-02 8.782641e-01 1.020218e+00 4.926657e-01 1.003459e+00
2.5 % 97.5 %
(Intercept) 3.703525e+03 7.004944e+13
A1 1.018123e+00 1.088035e+00
B2 2.832698e-01 9.337710e-01
B3 1.714448e-02 2.050537e-01
B4 1.197238e-02 5.113460e-01
B5 3.782990e-03 8.627079e-01
A6 8.099945e-01 9.522876e-01
A7 1.001484e+00 1.039302e+00
A8 2.998207e-01 8.095488e-01
A9 1.000416e+00 1.006510e+00
Como puede ver, todas las variables son "significativas" porque sus valores de p están por debajo del umbral habitual de 0.05. Sin embargo, mirando los coeficientes, no estoy muy seguro de qué hacer con estos resultados. Parece que a pesar de que estas variables contribuyen al modelo, observando las razones de posibilidades, no parecen tener realmente mucho poder predictivo. Es de destacar que cuando calculé el AUC, obtuve aproximadamente 0.8.
¿Puedo decir que este modelo es mejor para predecir la mortalidad (por ejemplo, para predecir que las personas mayores vivirán más allá del período prescrito) en comparación con la predicción de mortalidad?
fuente
Respuestas:
Te sugiero que uses el excelente paquete rms de Frank Harrell . Contiene muchas funciones útiles para validar y calibrar su modelo. Hasta donde sé, no se puede evaluar el rendimiento predictivo únicamente en función de los coeficientes. Además, te sugiero que uses el bootstrap para validar el modelo. El AUC o índice de concordancia (índice c) es una medida útil del rendimiento predictivo. Un índice c de es bastante alto, pero como en muchos modelos predictivos, el ajuste de su modelo es probablemente demasiado optimista (sobreajuste). Este exceso de optimismo se puede evaluar usando bootstrap. Pero déjame darte un ejemplo:0.8
En la parte inferior, verá los coeficientes de regresión habituales con los valores correspondientes . En la esquina superior derecha, verá varios índices de discriminación. El denota el índice c (AUC), y un índice c de denota división aleatoria mientras que un índice c de denota predicción perfecta. es la correlación de rango Somers entre las probabilidades predichas y las respuestas observadas. tiene una relación simple con el índice c: . Un de ocurre cuando las predicciones del modelo son aleatorias y cuando , el modelo discrimina perfectamente. En este caso, el índice c es0.5 1 D x y D x y D x y = 2 ( c - 0.5 ) D x y 0 D x y = 1 0.693 > 0.8pag 0.5 0.5 1 rex y rex y rex y= 2 ( c - 0.5 ) rex y 0 0 rex y= 1 0,693 que es ligeramente mejor que el azar, pero un índice c de es lo suficientemente bueno como para predecir los resultados de los individuos.> 0.8
C
Dxy
Como se dijo anteriormente, el modelo es probablemente demasiado optimista. Ahora usamos bootstrap para cuantificar el optimismo:
Concentrémonos en el que está en la parte superior. La primera columna denota el índice original, que era . La columna llamada indica la cantidad de sobreestimación estimada por el modelo. La columna es la estimación original menos el optimismo. En este caso, el corregido por sesgo es un poco más pequeño que el original. El índice c corregido por sesgo (AUC) es . 0.3857 D x y c = 1 + D x yrex y 0.3857 Dxy c=1+Dxy2=0.6749
optimism
index.corrected
También podemos calcular una curva de calibración usando remuestreo:
El gráfico proporciona alguna evidencia de que nuestros modelos están sobreajustados: el modelo subestima las bajas probabilidades y sobreestima las altas probabilidades. También hay una sobreestimación sistemática alrededor de .0.3
La construcción de modelos predictivos es un gran tema y sugiero leer las notas del curso de Frank Harrell .
fuente
rms
procedimientos para el paquete @COOLSerdash y Nick.Una nota sobre la interpretación de los coeficientes: recuerde que dependen de cómo se escriben los predictores como números. Entonces, para variables continuas dependen de las unidades en las que se miden; para predictores categóricos, el esquema de codificación. No se tiente a pensar que, digamos, A9 no es "importante" simplemente porque su coeficiente de 0.003453 es pequeño: A9 puede variar en varios órdenes de magnitud en alguna población de interés, mientras que los otros predictores varían solo ligeramente, o puede ser fácil de configurar en valores muy altos o bajos, mientras que los demás son difíciles de cambiar mucho.
fuente