¿Cuál es la diferencia en lo que AIC y estadística-C (AUC) realmente miden para el ajuste del modelo?

29

El Criterio de información de Akaike (AIC) y el estadístico c (área bajo la curva ROC) son dos medidas de ajuste del modelo para la regresión logística. Tengo problemas para explicar lo que sucede cuando los resultados de las dos medidas no son consistentes. Supongo que miden aspectos ligeramente diferentes del ajuste del modelo, pero ¿cuáles son esos aspectos específicos?

Tengo 3 modelos de regresiones logísticas. El modelo M0 tiene algunas covariables estándar. El modelo M1 agrega X1 a M0; el modelo M2 agrega X2 a M0 (por lo que M1 y M2 no están anidados).

La diferencia en AIC de M0 a M1 y M2 es de aproximadamente 15, lo que indica que X1 y X2 mejoran el ajuste del modelo y en aproximadamente la misma cantidad.

Las estadísticas c son: M0, 0,70; M1, 0,73; M2 0,72. La diferencia en la estadística c de M0 a M1 es significativa (método de DeLong et al 1988), pero la diferencia de M0 a M2 no es significativa, lo que indica que X1 mejora el ajuste del modelo, pero X2 no.

X1 no se recoge habitualmente. Se supone que X2 se recolecta de forma rutinaria, pero falta en aproximadamente el 40% de los casos. Queremos decidir si comenzar a recopilar X1, mejorar la recopilación de X2 o descartar ambas variables.

De AIC concluimos que las variables hacen una mejora similar al modelo. Probablemente sea más fácil mejorar la recopilación de X2 que comenzar a recopilar una variable completamente nueva (X1), por lo que nuestro objetivo sería mejorar la recopilación de X2. Pero a partir de la estadística c, X1 mejora el modelo y X2 no, por lo que debemos olvidarnos de X2 y comenzar a recopilar X1.

Como nuestra recomendación depende de en qué estadística nos enfocamos, necesitamos entender claramente la diferencia en lo que están midiendo.

Cualquier consejo de bienvenida.

timbp
fuente

Respuestas:

25

AIC y c-statistic están tratando de responder diferentes preguntas. (También se han planteado algunos problemas con la estadística c en los últimos años, pero lo abordaré como un aparte)

Mas o menos:

  • AIC le dice qué tan bueno se ajusta su modelo para un costo específico de clasificación errónea.
  • AUC le dice qué tan bueno funcionaría su modelo, en promedio, en todos los costos de clasificación errónea.

Cuando calcula el AIC, trata su logística dando una predicción de digamos 0.9 como predicción de 1 (es decir, más probable 1 que 0), sin embargo, no es necesario que sea así. Puede tomar su puntaje logístico y decir "cualquier cosa por encima de 0.95 es 1, todo lo que sigue es 0". ¿Por qué harías esto? Bueno, esto aseguraría que solo prediga uno cuando esté realmente realmente seguro. Su tasa de falsos positivos será realmente muy baja, pero su falso negativo se disparará. En algunas situaciones, esto no es algo malo: si va a acusar a alguien de fraude, es probable que primero quiera estar realmente seguro. Además, si es muy costoso hacer un seguimiento de los resultados positivos, entonces no querrá demasiados.

Por eso se relaciona con los costos. Hay un costo cuando clasifica un 1 como 0 y un costo cuando clasifica un 0 como 1. Por lo general (suponiendo que haya utilizado una configuración predeterminada), el AIC para la regresión logística se refiere al caso especial cuando ambas clasificaciones erróneas son igualmente costoso. Es decir, la regresión logística le brinda el mejor número total de predicciones correctas, sin ninguna preferencia por positivo o negativo.

La curva ROC se usa porque traza el verdadero positivo contra el falso positivo para mostrar cómo funcionaría el clasificador si lo usara bajo requisitos de costos diferentes. La estadística c surge porque cualquier curva ROC que se encuentra estrictamente por encima de otra es claramente un clasificador dominante. Por lo tanto, es intuitivo medir el área bajo la curva como una medida de cuán bueno es el clasificador en general.

Básicamente, si conoce sus costos al ajustar el modelo, use AIC (o similar). Si solo está construyendo un puntaje, pero no especifica el umbral de diagnóstico, entonces se necesitan enfoques de AUC (con la siguiente advertencia sobre el AUC en sí).

Entonces, ¿qué hay de malo en c-statistic / AUC / Gini?

Durante muchos años, el AUC fue el enfoque estándar, y todavía se usa ampliamente, sin embargo, hay una serie de problemas con él. Una cosa que lo hizo particularmente atractivo fue que corresponde a una prueba de Wilcox en los rangos de las clasificaciones. Es decir, midió la probabilidad de que la puntuación de un miembro elegido al azar de una clase sea mayor que un miembro elegido al azar de la otra clase. El problema es que casi nunca es una métrica útil.

Los problemas más críticos con las AUC fueron publicitados por David Hand hace unos años. (Véanse las referencias a continuación) El quid del problema es que, si bien el AUC promedia todos los costos, debido a que el eje x de la curva ROC es la tasa de falsos positivos, el peso que asigna a los diferentes regímenes de costos varía entre los clasificadores. Entonces, si calcula el AUC en dos regresiones lógicas diferentes, no medirá "lo mismo" en ambos casos. Esto significa que tiene poco sentido comparar modelos basados ​​en AUC.

Hand propuso un cálculo alternativo utilizando una ponderación de costo fijo, y llamó a esto la medida H: hay un paquete en R llamado hmeasureque realizará este cálculo, y creo que AUC para la comparación.

Algunas referencias sobre los problemas con AUC:

  • ¿Cuándo es el área bajo la curva característica de funcionamiento del receptor una medida apropiada del rendimiento del clasificador? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495

    (Encontré que esta es una explicación particularmente accesible y útil)

Corone
fuente
2
Y aquí hay otro artículo de DJ Hand: Medición del rendimiento del clasificador: una alternativa coherente al área bajo la curva ROC , Machine Learning (2009) 77: 103–123.
chl
Ese era el que estaba buscando, sí, ese fue el primer documento clave sobre esto (aunque creo que en consecuencia está dirigido a un público más técnico que algunos de los documentos posteriores).
Corone
3
AUC (índice C) tiene la ventaja de medir la probabilidad de concordancia como usted indicó, aparte de las consideraciones de costo / utilidad. Para mí, la conclusión es que el AUC debe usarse para describir la discriminación de un modelo, no para comparar 2 modelos. Para la comparación, necesitamos usar la medida más poderosa: la desviación y aquellas cosas derivadas de la desviación: generalizado y AIC. R2
Frank Harrell
Estoy confundido por la respuesta de Corone, pensé que AIC no tenía nada que ver con el rendimiento predictivo de un modelo y que es solo una medida de la probabilidad de que los datos se intercambien con la complejidad del modelo.
Zhubarb
@Berkan no está seguro de lo que quiere decir con "nada que ver con el rendimiento predictivo", a menos que simplemente quiera decir que es una medida dentro de la muestra y no fuera de la muestra. (Cuanto mayor sea la probabilidad, mejor "predice" esos puntos de datos). El punto es que el AIC es para una función de probabilidad específica, previamente elegida, mientras que el AIC es un promedio sobre un conjunto de ellos. Si conoce la probabilidad (es decir, umbral, costos, prevalencia ...), puede usar AIC.
Corone
3

El documento Hand citado no tiene base en el uso en el mundo real en el diagnóstico clínico. Tiene una curva teórica con 0.5 AUC, que en cambio es un clasificador perfecto. Él usa un solo conjunto de datos del mundo real, donde los modelos serían desechados, ya que son tan malos, y cuando se toman en cuenta los intervalos de confianza alrededor de las mediciones (datos no proporcionados pero inferidos) probablemente sean aleatorios . Dada la falta de datos del mundo real (o incluso de simulación plausible), este es un documento vacío. Personalmente, he participado en el análisis de miles de clasificadores entre miles de pacientes (con suficientes grados de libertad). En ese contexto, sus argumentos no son sensoriales.

También es propenso a los superlativos (no es una buena señal en ningún contexto), y hace generalizaciones no compatibles, por ejemplo, los costos no se pueden conocer. En medicina, hay costos que se aceptan, como un valor predictivo positivo del 10% para las pruebas de detección y $ 100,000 por año de vida ajustado por calidad para intervenciones terapéuticas. Me resulta difícil creer que en la calificación crediticia, los costos no se entiendan bien al entrar. Si él está diciendo (claramente) que diferentes falsos positivos y falsos negativos individuales conllevan costos diferentes, aunque ese es un tema muy interesante, no se parece clasificadores binarios.

Si su punto es que la forma ROC es importante, entonces para los usuarios sofisticados, eso es obvio, y los usuarios no sofisticados tienen mucho más de qué preocuparse, por ejemplo, incorporar la prevalencia en valores predictivos positivos y negativos.

Finalmente, no entiendo cómo no se pueden juzgar los diferentes clasificadores en función de los diversos límites del mundo real determinados por el uso clínico (o financiero) de los modelos. Obviamente, se elegirían diferentes puntos de corte para cada modelo. Los modelos no se compararían solo en base a las AUC. Los clasificadores no importan, pero sí la forma de la curva.

usuario162905
fuente
-1

Para mí, la conclusión es que si bien el estadístico C (AUC) puede ser problemático al comparar modelos con diferentes variables independientes (análogas a lo que Hand denomina "clasificadores"), sigue siendo útil en otras aplicaciones. Por ejemplo, los estudios de validación donde se compara el mismo modelo en diferentes poblaciones de estudio (conjuntos de datos). Si se demuestra que un modelo o índice / puntaje de riesgo es altamente discriminante en una población, pero no en otras, esto podría significar que no es una herramienta muy buena en general, pero puede serlo en casos específicos.

Dave
fuente
3
R2