Si el Hosmer-Lemeshow indica una falta de ajuste, pero el AIC es el más bajo entre todos los modelos ... ¿aún debe usar el modelo?
Si elimino una variable, la estadística de Hosmer-Lemeshow no es significativa (lo que significa que no hay una gran falta de ajuste). Pero la AIC aumenta.
Editar : Creo que, en general, si los AIC de diferentes modelos están cerca (es decir, ) entre sí, entonces son básicamente los mismos. Pero los AIC son muy diferentes. Esto parece indicar que el que tiene el AIC más bajo es el que debería usar, aunque la prueba de Hosmer-Lemeshow indica lo contrario.
¿Quizás la prueba HL solo se aplica a muestras grandes? Tiene baja potencia para tamaños de muestra pequeños (mi tamaño de muestra es ~ 300). Pero si obtengo un resultado significativo ... Esto significa que, incluso con poca potencia, obtengo un rechazo.
¿Habría alguna diferencia si usara AICc versus AIC? ¿Cómo se obtienen los AICc en SAS? Sé que podría haber problemas con la multiplicidad. Pero a priori planteo la hipótesis de que las variables tienen un efecto en el resultado.
¿Algún comentario?
Edit2 : creo que debería usar el modelo con una variable menos y el AIC más alto con HL no significativo. La razón es porque dos de las variables están correlacionadas entre sí. Entonces deshacerse de uno tiene sentido.
Respuestas:
La prueba de Hosmer-Lemeshow es hasta cierto punto obsoleta porque requiere un binning arbitrario de probabilidades pronosticadas y no posee un poder excelente para detectar la falta de calibración. Tampoco penaliza por completo el sobreajuste extremo del modelo. Hay mejores métodos disponibles como Hosmer, DW; Hosmer, T .; le Cessie, S. y Lemeshow, S. Una comparación de las pruebas de bondad de ajuste para el modelo de regresión logística. Estadísticas en medicina , 1997, 16 , 965-980. Su nueva medida se implementa en la RR2 C
rms
paquete. Más importante aún, este tipo de evaluación solo aborda la calibración general del modelo (acuerdo entre lo predicho y lo observado) y no aborda la falta de ajuste, como la transformación inadecuada de un predictor. Por lo demás, tampoco lo hace AIC a menos que use AIC para comparar dos modelos en los que uno es más flexible que el otro que se está probando. Creo que está interesado en la discriminación predictiva, para la cual una medida de generalizada , complementada por el índice (área ROC) puede ser más apropiada. cfuente
rms