Estoy usando el enfoque bootstrap para la validación interna de un modelo multivariado construido con regresión logística estándar O red elástica.
El procedimiento que uso es el siguiente:
1) construya el modelo utilizando todo el conjunto de datos, obtenga los valores pronosticados y calcule AUC (AUC_ap, aparente)
2) generar 100-500 muestras de arranque derivadas del conjunto de datos original
3) para cada muestra de bootstrap, siga el mismo procedimiento que en el n. ° 1 y obtenga los valores pronosticados y auc para i) muestra de bootstrap actual, y ii) conjunto de datos original
4) calcule la diferencia entre i) y ii) (en el # 3) para cada una de las muestras de arranque de 100-500, y tome el promedio -> "optimismo"
5) calcular el AUC corregido por optimismo: AUC_ap - optimismo
Mi pregunta es ¿QUÉ curva ROC sería mejor presentar en un artículo? Por ejemplo, el ROC derivado en el paso 1 es una opción, pero claramente optimista. Alternativamente, he intentado generar un "ROC promedio" utilizando el paquete ROCR R, basado en las curvas ROC derivadas en el paso 3 (ii). Sin embargo, el AUC para el [promedio de estas curvas ROC] no creo que sea equivalente al valor obtenido en el paso 5.
¡Cualquier aporte es muy apreciado! -METRO