Para calibrar un nivel de confianza a una probabilidad en el aprendizaje supervisado (por ejemplo, para mapear la confianza de un SVM o un árbol de decisión usando datos sobremuestreados), un método es usar la Escala de Platt (por ejemplo, Obteniendo Probabilidades Calibradas de Impulso ).
Básicamente se usa la regresión logística para mapear a [ 0 ; 1 ] . La variable dependiente es la etiqueta verdadera y el predictor es la confianza del modelo no calibrado. Lo que no entiendo es el uso de una variable de destino que no sea 1 o 0. El método requiere la creación de una nueva "etiqueta":
Para evitar el sobreajuste del conjunto de trenes sigmoides, se utiliza un modelo sin muestra. Si hay ejemplos positivos y N - ejemplos negativos en el conjunto de trenes, para cada ejemplo de entrenamiento Platt Calibration usa los valores objetivo y + e y - (en lugar de 1 y 0, respectivamente), donde y + = N + + 1
Lo que no entiendo es cómo es útil este nuevo objetivo. ¿No es la regresión logística simplemente tratar la variable dependiente como una etiqueta binaria (independientemente de qué etiqueta se proporcione)?
ACTUALIZAR:
PROC GENMOD
data(ToothGrowth)
attach(ToothGrowth)
# 1/0 coding
dep <- ifelse(supp == "VC", 1, 0)
OneZeroModel <- glm(dep~len, family=binomial)
OneZeroModel
predict(OneZeroModel)
# Platt coding
dep2 <- ifelse(supp == "VC", 31/32, 1/32)
plattCodeModel <- glm(dep2~len, family=binomial)
plattCodeModel
predict(plattCodeModel)
compare <- cbind(predict(OneZeroModel), predict(plattCodeModel))
plot(predict(OneZeroModel), predict(plattCodeModel))
fuente
Otro método para evitar el sobreajuste que he encontrado útil es ajustar el modelo de regresión logística univariante a la salida de validación cruzada de omisión del SVM, que se puede aproximar de manera eficiente utilizando el límite de Span .
Sin embargo, si desea un clasificador que produzca estimaciones de la probabilidad de pertenencia a la clase, entonces sería mejor utilizar la regresión logística del núcleo, que tiene como objetivo hacerlo directamente. La salida del SVM está diseñada para una clasificación discreta y no necesariamente contiene la información requerida para una estimación precisa de las probabilidades fuera del contorno p = 0.5.
Los clasificadores de procesos gaussianos son otra buena opción si desea un clasificador probabilístico basado en el núcleo.
fuente