Supongamos que he construido un modelo de predicción para la aparición de una enfermedad en particular en un conjunto de datos (el conjunto de datos de construcción del modelo) y ahora quiero verificar qué tan bien funciona el modelo en un nuevo conjunto de datos (el conjunto de datos de validación). Para un modelo construido con regresión logística, calcularía la probabilidad pronosticada para cada persona en el conjunto de datos de validación en función de los coeficientes del modelo obtenidos del conjunto de datos de construcción del modelo y luego, después de dicotomizar esas probabilidades en algún valor de corte, puedo construir una tabla de 2x2 eso me permite calcular la verdadera tasa positiva (sensibilidad) y la verdadera tasa negativa (especificidad). Además, puedo construir toda la curva ROC variando el corte y luego obtener el AUC para el gráfico ROC.
Ahora supongamos que realmente tengo datos de supervivencia. Entonces, utilicé un modelo de riesgos proporcionales de Cox en el conjunto de datos de construcción del modelo y ahora quiero verificar qué tan bien funciona el modelo en el conjunto de datos de validación. Dado que el riesgo inicial no es una función paramétrica en los modelos de Cox, no veo cómo puedo obtener la probabilidad de supervivencia predicha para cada persona en el conjunto de datos de validación en función de los coeficientes del modelo obtenidos en el conjunto de datos de construcción del modelo. Entonces, ¿cómo puedo verificar qué tan bien funciona el modelo en el conjunto de datos de validación? ¿Existen métodos establecidos para hacer esto? Y si es así, ¿se implementan en algún software? ¡Gracias de antemano por cualquier sugerencia!
fuente
Sé que esta pregunta es bastante antigua, pero lo que hice cuando encontré el mismo problema fue usar la función de predicción para obtener una "puntuación" para cada sujeto en el conjunto de validación. Esto fue seguido por la división de los sujetos según si el puntaje era mayor o menor que la mediana y trazando la curva de Kaplan-Meier. Esto debería mostrar una separación de los sujetos si su modelo es predictivo. También probé la correlación de la puntuación (en realidad de su ln [para distribución normal]) con la supervivencia utilizando la función coxph del paquete de supervivencia en R.
fuente