Como usted menciona, AUC es una estadística de rango (es decir, invariante de escala) y la pérdida de registro es una estadística de calibración. Uno puede construir trivialmente un modelo que tiene el mismo AUC pero no puede minimizar la pérdida de registro con otro modelo al escalar los valores pronosticados. Considerar:
auc <- function(prediction, actual) {
mann_whit <- wilcox.test(prediction~actual)$statistic
1 - mann_whit / (sum(actual)*as.double(sum(!actual)))
}
log_loss <- function (prediction, actual) {
-1/length(prediction) * sum(actual * log(prediction) + (1-actual) * log(1-prediction))
}
sampled_data <- function(effect_size, positive_prior = .03, n_obs = 5e3) {
y <- rbinom(n_obs, size = 1, prob = positive_prior)
data.frame( y = y,
x1 =rnorm(n_obs, mean = ifelse(y==1, effect_size, 0)))
}
train_data <- sampled_data(4)
m1 <- glm(y~x1, data = train_data, family = 'binomial')
m2 <- m1
m2$coefficients[2] <- 2 * m2$coefficients[2]
m1_predictions <- predict(m1, newdata = train_data, type= 'response')
m2_predictions <- predict(m2, newdata = train_data, type= 'response')
auc(m1_predictions, train_data$y)
#0.9925867
auc(m2_predictions, train_data$y)
#0.9925867
log_loss(m1_predictions, train_data$y)
#0.01985058
log_loss(m2_predictions, train_data$y)
#0.2355433
Por lo tanto, no podemos decir que un modelo que maximiza AUC significa pérdida de registro minimizada. Si un modelo que minimiza la pérdida de registros corresponde al AUC maximizado dependerá en gran medida del contexto; separabilidad de clase, sesgo de modelo, etc. En la práctica, uno podría considerar una relación débil, pero en general son simplemente objetivos diferentes. Considere el siguiente ejemplo que aumenta la separabilidad de clase (tamaño del efecto de nuestro predictor):
for (effect_size in 1:7) {
results <- dplyr::bind_rows(lapply(1:100, function(trial) {
train_data <- sampled_data(effect_size)
m <- glm(y~x1, data = train_data, family = 'binomial')
predictions <- predict(m, type = 'response')
list(auc = auc(predictions, train_data$y),
log_loss = log_loss(predictions, train_data$y),
effect_size = effect_size)
}))
plot(results$auc, results$log_loss, main = paste("Effect size =", effect_size))
readline()
}
Para etiquetas desequilibradas, el área bajo la curva de recuperación de precisión es preferible a AUC ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4349800/ o documentos de Python scikit-learn )
Además, si su objetivo es maximizar la precisión, puede considerar hacer una validación cruzada para seleccionar el mejor modelo (algoritmo + hiperparámetros) utilizando "precisión" como la métrica de rendimiento.
fuente