AIC y c-statistic están tratando de responder diferentes preguntas. (También se han planteado algunos problemas con la estadística c en los últimos años, pero lo abordaré como un aparte)
Mas o menos:
- AIC le dice qué tan bueno se ajusta su modelo para un costo específico de clasificación errónea.
- AUC le dice qué tan bueno funcionaría su modelo, en promedio, en todos los costos de clasificación errónea.
Cuando calcula el AIC, trata su logística dando una predicción de digamos 0.9 como predicción de 1 (es decir, más probable 1 que 0), sin embargo, no es necesario que sea así. Puede tomar su puntaje logístico y decir "cualquier cosa por encima de 0.95 es 1, todo lo que sigue es 0". ¿Por qué harías esto? Bueno, esto aseguraría que solo prediga uno cuando esté realmente realmente seguro. Su tasa de falsos positivos será realmente muy baja, pero su falso negativo se disparará. En algunas situaciones, esto no es algo malo: si va a acusar a alguien de fraude, es probable que primero quiera estar realmente seguro. Además, si es muy costoso hacer un seguimiento de los resultados positivos, entonces no querrá demasiados.
Por eso se relaciona con los costos. Hay un costo cuando clasifica un 1 como 0 y un costo cuando clasifica un 0 como 1. Por lo general (suponiendo que haya utilizado una configuración predeterminada), el AIC para la regresión logística se refiere al caso especial cuando ambas clasificaciones erróneas son igualmente costoso. Es decir, la regresión logística le brinda el mejor número total de predicciones correctas, sin ninguna preferencia por positivo o negativo.
La curva ROC se usa porque traza el verdadero positivo contra el falso positivo para mostrar cómo funcionaría el clasificador si lo usara bajo requisitos de costos diferentes. La estadística c surge porque cualquier curva ROC que se encuentra estrictamente por encima de otra es claramente un clasificador dominante. Por lo tanto, es intuitivo medir el área bajo la curva como una medida de cuán bueno es el clasificador en general.
Básicamente, si conoce sus costos al ajustar el modelo, use AIC (o similar). Si solo está construyendo un puntaje, pero no especifica el umbral de diagnóstico, entonces se necesitan enfoques de AUC (con la siguiente advertencia sobre el AUC en sí).
Entonces, ¿qué hay de malo en c-statistic / AUC / Gini?
Durante muchos años, el AUC fue el enfoque estándar, y todavía se usa ampliamente, sin embargo, hay una serie de problemas con él. Una cosa que lo hizo particularmente atractivo fue que corresponde a una prueba de Wilcox en los rangos de las clasificaciones. Es decir, midió la probabilidad de que la puntuación de un miembro elegido al azar de una clase sea mayor que un miembro elegido al azar de la otra clase. El problema es que casi nunca es una métrica útil.
Los problemas más críticos con las AUC fueron publicitados por David Hand hace unos años. (Véanse las referencias a continuación) El quid del problema es que, si bien el AUC promedia todos los costos, debido a que el eje x de la curva ROC es la tasa de falsos positivos, el peso que asigna a los diferentes regímenes de costos varía entre los clasificadores. Entonces, si calcula el AUC en dos regresiones lógicas diferentes, no medirá "lo mismo" en ambos casos. Esto significa que tiene poco sentido comparar modelos basados en AUC.
Hand propuso un cálculo alternativo utilizando una ponderación de costo fijo, y llamó a esto la medida H: hay un paquete en R llamado hmeasure
que realizará este cálculo, y creo que AUC para la comparación.
Algunas referencias sobre los problemas con AUC:
¿Cuándo es el área bajo la curva característica de funcionamiento del receptor una medida apropiada del rendimiento del clasificador? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495
(Encontré que esta es una explicación particularmente accesible y útil)
El documento Hand citado no tiene base en el uso en el mundo real en el diagnóstico clínico. Tiene una curva teórica con 0.5 AUC, que en cambio es un clasificador perfecto. Él usa un solo conjunto de datos del mundo real, donde los modelos serían desechados, ya que son tan malos, y cuando se toman en cuenta los intervalos de confianza alrededor de las mediciones (datos no proporcionados pero inferidos) probablemente sean aleatorios . Dada la falta de datos del mundo real (o incluso de simulación plausible), este es un documento vacío. Personalmente, he participado en el análisis de miles de clasificadores entre miles de pacientes (con suficientes grados de libertad). En ese contexto, sus argumentos no son sensoriales.
También es propenso a los superlativos (no es una buena señal en ningún contexto), y hace generalizaciones no compatibles, por ejemplo, los costos no se pueden conocer. En medicina, hay costos que se aceptan, como un valor predictivo positivo del 10% para las pruebas de detección y $ 100,000 por año de vida ajustado por calidad para intervenciones terapéuticas. Me resulta difícil creer que en la calificación crediticia, los costos no se entiendan bien al entrar. Si él está diciendo (claramente) que diferentes falsos positivos y falsos negativos individuales conllevan costos diferentes, aunque ese es un tema muy interesante, no se parece clasificadores binarios.
Si su punto es que la forma ROC es importante, entonces para los usuarios sofisticados, eso es obvio, y los usuarios no sofisticados tienen mucho más de qué preocuparse, por ejemplo, incorporar la prevalencia en valores predictivos positivos y negativos.
Finalmente, no entiendo cómo no se pueden juzgar los diferentes clasificadores en función de los diversos límites del mundo real determinados por el uso clínico (o financiero) de los modelos. Obviamente, se elegirían diferentes puntos de corte para cada modelo. Los modelos no se compararían solo en base a las AUC. Los clasificadores no importan, pero sí la forma de la curva.
fuente
Para mí, la conclusión es que si bien el estadístico C (AUC) puede ser problemático al comparar modelos con diferentes variables independientes (análogas a lo que Hand denomina "clasificadores"), sigue siendo útil en otras aplicaciones. Por ejemplo, los estudios de validación donde se compara el mismo modelo en diferentes poblaciones de estudio (conjuntos de datos). Si se demuestra que un modelo o índice / puntaje de riesgo es altamente discriminante en una población, pero no en otras, esto podría significar que no es una herramienta muy buena en general, pero puede serlo en casos específicos.
fuente