Hosmer-Lemeshow vs AIC para regresión logística

12

Si el Hosmer-Lemeshow indica una falta de ajuste, pero el AIC es el más bajo entre todos los modelos ... ¿aún debe usar el modelo?

Si elimino una variable, la estadística de Hosmer-Lemeshow no es significativa (lo que significa que no hay una gran falta de ajuste). Pero la AIC aumenta.

Editar : Creo que, en general, si los AIC de diferentes modelos están cerca (es decir, <2 ) entre sí, entonces son básicamente los mismos. Pero los AIC son muy diferentes. Esto parece indicar que el que tiene el AIC más bajo es el que debería usar, aunque la prueba de Hosmer-Lemeshow indica lo contrario.

¿Quizás la prueba HL solo se aplica a muestras grandes? Tiene baja potencia para tamaños de muestra pequeños (mi tamaño de muestra es ~ 300). Pero si obtengo un resultado significativo ... Esto significa que, incluso con poca potencia, obtengo un rechazo.

¿Habría alguna diferencia si usara AICc versus AIC? ¿Cómo se obtienen los AICc en SAS? Sé que podría haber problemas con la multiplicidad. Pero a priori planteo la hipótesis de que las variables tienen un efecto en el resultado.

¿Algún comentario?

Edit2 : creo que debería usar el modelo con una variable menos y el AIC más alto con HL no significativo. La razón es porque dos de las variables están correlacionadas entre sí. Entonces deshacerse de uno tiene sentido.

Thomas
fuente
Tenga en cuenta que todos sus modelos pueden ser basura.
@mbq: ¿Cómo ayuda esto?
Thomas
2
Bueno, incluso en un grupo de modelos no significativos hay uno con el mejor AIC. De todos modos, no use respuestas para extender su pregunta.

Respuestas:

12

La prueba de Hosmer-Lemeshow es hasta cierto punto obsoleta porque requiere un binning arbitrario de probabilidades pronosticadas y no posee un poder excelente para detectar la falta de calibración. Tampoco penaliza por completo el sobreajuste extremo del modelo. Hay mejores métodos disponibles como Hosmer, DW; Hosmer, T .; le Cessie, S. y Lemeshow, S. Una comparación de las pruebas de bondad de ajuste para el modelo de regresión logística. Estadísticas en medicina , 1997, 16 , 965-980. Su nueva medida se implementa en la Rrmspaquete. Más importante aún, este tipo de evaluación solo aborda la calibración general del modelo (acuerdo entre lo predicho y lo observado) y no aborda la falta de ajuste, como la transformación inadecuada de un predictor. Por lo demás, tampoco lo hace AIC a menos que use AIC para comparar dos modelos en los que uno es más flexible que el otro que se está probando. Creo que está interesado en la discriminación predictiva, para la cual una medida de generalizada , complementada por el índice (área ROC) puede ser más apropiada. cR2c

Frank Harrell
fuente
Entonces, ¿sería mejor usar la prueba de razón de probabilidad para evaluar la bondad de ajuste del modelo con el AIC más bajo? Porque esta prueba muestra que no hay falta de ajuste.
Thomas
Mirar los AIC de más de 2 modelos dará como resultado un sesgo de selección / sobreajuste. AIC no evalúa explícitamente la bondad de ajuste, excepto en el contexto que di anteriormente. La mejor manera de evaluar el ajuste es demostrar una buena calibración usando un gráfico de calibración continuo y no paramétrico, y mostrando poca evidencia de componentes más complejos que podrían haber hecho que el modelo prediga mejor.
Frank Harrell el
Suponiendo que no tengo acceso a ninguna de esas herramientas. El modelo A que tiene una prueba HL no significativa también tiene una variable menos que el modelo B que tiene una prueba HL significativa. Solo estoy comparando estos dos modelos. El modelo A tiene el AIC más bajo y el modelo B tiene un AIC mucho más alto.
Thomas
Quise decir que el Modelo B tiene el AIC más bajo y el Modelo A tiene un AIC mucho más alto.
Thomas
2
rmsP