¿Por qué el área bajo la curva ROC es la probabilidad de que un clasificador clasifique una instancia "positiva" elegida al azar (de las predicciones recuperadas) más alta que una instancia "positiva" elegida al azar (de la clase positiva original)? ¿Cómo se prueba matemáticamente esta afirmación usando integral, dando los CDF y PDF de las verdaderas distribuciones de clase positiva y negativa?
probability
roc
auc
mff
fuente
fuente
Respuestas:
Primero, intentemos definir formalmente el área bajo la curva ROC. Algunos supuestos y definiciones:
Tenemos un clasificador probabilístico que genera una "puntuación" s (x), donde x son las características, y s es una función monotónica creciente genérica de la probabilidad estimada p (clase = 1 | x).
La clasificación de una nueva observación se obtiene comprando la puntuación s en un umbral t
Además, por conveniencia matemática, consideremos la clase positiva (evento detectado) k = 0, y negativa k = 1. En esta configuración podemos definir:
La curva ROC es entonces una gráfica de contra . Configurando , podemos definir formalmente el área bajo la curva ROC como: Variable cambiante ( ):F0(t) F1(t) v=F1(s)
Se puede ver fácilmente que esta fórmula es la probabilidad de que un miembro de la clase 0 seleccionado aleatoriamente produzca una puntuación menor que la de un miembro de la clase 1 seleccionado aleatoriamente.
Esta prueba está tomada de: https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf
fuente
La respuesta de @ alebu es genial. Pero su notación no es estándar y usa 0 para la clase positiva y 1 para la clase negativa. A continuación se muestran los resultados para la notación estándar (0 para la clase negativa y 1 para la clase positiva):
Pdf y cdf de la puntuación para clase negativa: yf0(s) F0(s)
Pdf y cdf de la puntuación para clase positiva: yf1(s) F1(s)
FPR =x(s)=1−F0(s)
TPR =y(s)=1−F1(s)
donde significa umbral. Se puede aplicar la interpretación en la respuesta de @ alebu a la última expresión.τ
fuente
La forma de calcular AUC-ROC es trazar el TPR y el FPR como el umbral, se cambia y calcular el área bajo esa curva. Pero, ¿por qué esta área bajo la curva es igual a esta probabilidad? Asumamos lo siguiente:τ
Tenga en cuenta que el TPR (recuperación) viene dado por: y el FPR (caída) es: .P(A>τ) P(B>τ)
Ahora, graficamos el TPR en el eje y y el FPR en el eje x, dibujamos la curva para varios y calculamos el área bajo esta curva ( ).τ AUC
Obtenemos:
Ahora, aquí era solo elx FPR
Pero sabemos por la transformada inversa de la ley que para cualquier variable aleatoria , si continuación, . Esto se debe a que tomar cualquier variable aleatoria y aplicarle su propio CDF conduce al uniforme.X FX(Y)∼U Y∼X
El uso de este hecho en la ecuación (2) nos da:
Sustituyendo esto en la ecuación (1) obtenemos:
En otras palabras, el área debajo de la curva es la probabilidad de que una muestra positiva aleatoria tenga una puntuación más alta que una muestra negativa aleatoria.
fuente