Pregunta : He ajustado un modelo probabilístico (red bayesiana) para modelar una variable de resultado binaria. Me gustaría crear un gráfico de calibración de alta resolución (por ejemplo, spline) corregido por sobreajuste con bootstrapping. ¿Existe un procedimiento estándar para calcular dicha curva?
Consideraciones : podría hacerlo fácilmente con la división de tren / prueba, pero preferiría no tirar ningún dato ya que tengo menos de 20,000 muestras. Así que, naturalmente, pensé en bootstrapping. Sé que una de esas funciones (calibrar) se implementa en el paquete rms de Frank Harrell, pero desafortunadamente el modelo que uso no es compatible con el paquete.
Pregunta adicional: ¿es posible recalibrar un modelo mal calibrado con bootstrapping? La razón por la que pregunto esto es porque intenté recalibrar un modelo
- dividir datos en tren / prueba
- modelo apropiado para el conjunto de entrenamiento
- recalibrar el modelo al conjunto de entrenamiento (con una spline cúbica)
- evaluar la calibración en el conjunto de prueba
Los modelos recalibrados de la manera anterior estaban perfectamente calibrados en el conjunto del tren, pero no tanto en el conjunto de prueba, lo que probablemente indica un sobreajuste leve. También intenté dividir aún más el conjunto de prueba, calibrar en una división y evaluar la calibración en la segunda división. Obtuve mejores resultados (aunque todavía no está perfectamente calibrado), pero los conjuntos se volvieron bastante pequeños (~ 1000 muestras) y, por lo tanto, la calibración no es confiable
fuente
reticulate
. Podría implementar el procedimiento yo mismo si lo supiera, pero no lo he encontrado en ninguna parte. Supongo que solo espero que el profesor Harrell vea esta pregunta: DRespuestas:
Después de discutir con el profesor Frank Harrell por correo electrónico, ideé el siguiente procedimiento para estimar la curva de calibración corregida por el optimismo, parcialmente basada en su Tutorial en Bioestadística (ESTADÍSTICAS EN MEDICINA, VOL. 15,361-387 (1996)):
Nota importante : El procedimiento anterior está inspirado en el trabajo de Harrell y mi discusión con él, pero todos los errores son solo míos.
fuente