¿Cómo interpretar una curva ROC?

14

Apliqué la regresión logística a mis datos en SAS y aquí están la curva ROC y la tabla de clasificación.

ingrese la descripción de la imagen aquí

Me siento cómodo con las figuras en la tabla de clasificación, pero no estoy exactamente seguro de lo que muestran la curva roc y el área debajo de ella. Cualquier explicación sería muy apreciada.

Günal
fuente

Respuestas:

21

Cuando haces una regresión logística, se te dan dos clases codificadas como y . Ahora, calcula las probabilidades de que, dado algunos varialbes explicativos, un individuo pertenezca a la clase codificada como . Si ahora elige un umbral de probabilidad y clasifica a todas las personas con una probabilidad mayor que este umbral como clase e inferior como0 1 1 010110, en la mayoría de los casos cometerá algunos errores porque, por lo general, dos grupos no pueden discriminarse perfectamente. Para este umbral, ahora puede calcular sus errores y la llamada sensibilidad y especificidad. Si hace esto para muchos umbrales, puede construir una curva ROC trazando la sensibilidad contra 1-Especificidad para muchos umbrales posibles. El área debajo de la curva entra en juego si desea comparar diferentes métodos que intentan discriminar entre dos clases, por ejemplo, análisis discriminante o un modelo probit. Puede construir la curva ROC para todos estos modelos y el que tenga el área más alta debajo de la curva puede verse como el mejor modelo.

Si necesita obtener una comprensión más profunda, también puede leer la respuesta de una pregunta diferente con respecto a las curvas ROC haciendo clic aquí.

chico al azar
fuente
¿En qué se diferencia el área bajo la curva ROC de la tasa correcta en la tabla de clasificación?
Günal
2
La tabla muestra solo lo correcto y lo incorrecto para un umbral. Sin embargo, la curva AUROC es una medida del método de clasificación completo y el correcto y no correcto para muchos umbrales diferentes.
random_guy
¡Bueno escuchar eso!
random_guy
6

El AUC básicamente le dice con qué frecuencia un sorteo aleatorio de sus probabilidades de respuesta pronosticadas en sus datos etiquetados con 1 será mayor que un sorteo aleatorio de sus probabilidades de respuesta pronosticadas en sus datos con etiquetas 0.

jlemaitre
fuente
6

El modelo de regresión logística es un método de estimación de probabilidad directa. La clasificación no debe desempeñar ningún papel en su uso. Cualquier clasificación no basada en la evaluación de los servicios públicos (función de pérdida / costo) en sujetos individuales es inapropiada, excepto en emergencias muy especiales. La curva ROC no es útil aquí; tampoco lo son la sensibilidad o la especificidad que, al igual que la precisión de clasificación general, son reglas de puntuación de precisión inadecuadas que están optimizadas por un modelo falso no ajustado por la estimación de máxima verosimilitud.

Tenga en cuenta que logra una alta discriminación predictiva (alto índice (área ROC)) al sobreajustar los datos. Quizás necesite al menos observaciones en la categoría menos frecuente de , donde es el número de predictores candidatos que se están considerando, para obtener un modelo que no esté sobreajustado significativamente [es decir, un modelo que probablemente funcione en nuevos datos casi tan bien como funcionó en los datos de entrenamiento]. Necesita al menos 96 observaciones solo para estimar la intersección de manera que el riesgo predicho tenga un margen de error con una confianza de 0.95.15 p Y p 0.05c15pYp0.05

Frank Harrell
fuente
@ Frank Harrell: ¿Podría explicar el cálculo de la intercepción y el comentario sobre el margen de error? ¡Gracias!
julio
@FrankHarrell, ¿su consejo de que necesitamos al menos 15p de observaciones se aplica si terminamos haciendo una regresión de cresta para calibrar el modelo? Entiendo que reemplazamos p entonces por la dimensionalidad efectiva.
Lepidopterista
Correcto, y diría que usa una penalización como la penalización cuadrática (cresta) para estimar los parámetros, lo que da como resultado una mejor calibración
Frank Harrell