Relación entre KS, AUROC y Gini

11

Las estadísticas comunes de validación de modelos como la prueba de Kolmogorov-Smirnov (KS), AUROC y el coeficiente de Gini están relacionadas funcionalmente. Sin embargo, mi pregunta tiene que ver con probar cómo están todos relacionados. Tengo curiosidad por saber si alguien puede ayudarme a probar estas relaciones. No he podido encontrar nada en línea, pero estoy realmente interesado en cómo funcionan las pruebas. Por ejemplo, sé que Gini = 2AUROC-1, pero mi mejor prueba consiste en señalar un gráfico. Estoy interesado en pruebas formales. Cualquier ayuda sería muy apreciada!

Steven
fuente
1
Por KS, ¿te refieres a la estadística de Kolmogorov-Smirnov? ¿AUROC es probablemente el área bajo la curva ROC?
Nitesh
Parece que comenzar desde Wikipedia y revisar las referencias originales sería un buen lugar para comenzar.
LauriK

Respuestas:

1

La entrada de Wikipedia para la característica de funcionamiento del receptor hace referencia a este documento para el resultado de Gini = 2AUROC-1: Hand, David J .; y Till, Robert J. (2001); Una generalización simple del área bajo la curva ROC para problemas de clasificación de múltiples clases, Machine Learning, 45, 171–186. Pero me temo que no tengo acceso fácil para ver qué tan cerca se acerca lo que quieres.

nealmcb
fuente
1
... y puede ser un resultado inútil, ya que el Gini generalmente se aplica a datos que tienen dos etiquetados categoriales, mientras que AUROC se aplica a datos de clasificación numérica + una etiqueta binaria. Ellos pueden coinciden solamente si su rango es binaria? en cuyo caso no tendría mucho sentido usar AUROC en absoluto porque es una curva de 3 puntos con solo 2 grados de libertad ... (No he comprobado ese resultado, demasiado spam en papel en Wikipedia en estos días)
HA SALIDO - Anony-Mousse
0

Según el documento (Adeodato, PJ L y Melo, SB 2016), existe una relación lineal entre el Área bajo la curva KS (AUKS) y el Área bajo la curva ROC (AUROC), a saber:

AUROC=0.5+AUKS

La prueba de equivalencia se incluye en el documento.

ntzortzis
fuente
0

El resultado Gini = 2 * AUROC-1 es difícil de probar porque no es necesariamente cierto. El artículo de Wikipedia sobre la curva de Características operativas del receptor da el resultado como una definición de Gini, y el artículo de Hand and Till (citado por nealmcb) simplemente dice que la definición gráfica de Gini usando la curva ROC conduce a esta fórmula.

El problema es que esta definición de Gini se usa en las comunidades de ingeniería y aprendizaje automático, pero los economistas y demógrafos utilizan una definición diferente (volviendo al documento original de Gini). El artículo de Wikipedia sobre el coeficiente de Gini establece esta definición, basada en la curva de Lorenz.

Un artículo de Schechtman y Schechtman (2016) establece la relación entre AUC y la definición original de Gini. Pero para ver que no pueden ser exactamente iguales, suponga que la proporción de eventos es p y que tenemos un clasificador perfecto. La curva ROC luego pasa a través de la esquina superior izquierda y AUCROC es 1. Sin embargo, la curva de Lorenz (volteada) va de (0,0) a ( p , 1) a (1,1) y el Gini de los economistas es 1 - p / 2, que es casi pero no exactamente 1.

Si los eventos son raros, entonces la relación Gini = 2 * AUROC-1 es casi, pero no exactamente cierta, utilizando la definición original de Gini. La relación solo es exactamente cierta si Gini se redefine para hacerla verdadera.

PaulVD
fuente