Las estadísticas comunes de validación de modelos como la prueba de Kolmogorov-Smirnov (KS), AUROC y el coeficiente de Gini están relacionadas funcionalmente. Sin embargo, mi pregunta tiene que ver con probar cómo están todos relacionados. Tengo curiosidad por saber si alguien puede ayudarme a probar estas relaciones. No he podido encontrar nada en línea, pero estoy realmente interesado en cómo funcionan las pruebas. Por ejemplo, sé que Gini = 2AUROC-1, pero mi mejor prueba consiste en señalar un gráfico. Estoy interesado en pruebas formales. Cualquier ayuda sería muy apreciada!
11
Respuestas:
La entrada de Wikipedia para la característica de funcionamiento del receptor hace referencia a este documento para el resultado de Gini = 2AUROC-1: Hand, David J .; y Till, Robert J. (2001); Una generalización simple del área bajo la curva ROC para problemas de clasificación de múltiples clases, Machine Learning, 45, 171–186. Pero me temo que no tengo acceso fácil para ver qué tan cerca se acerca lo que quieres.
fuente
Según el documento (Adeodato, PJ L y Melo, SB 2016), existe una relación lineal entre el Área bajo la curva KS (AUKS) y el Área bajo la curva ROC (AUROC), a saber:
La prueba de equivalencia se incluye en el documento.
fuente
El resultado Gini = 2 * AUROC-1 es difícil de probar porque no es necesariamente cierto. El artículo de Wikipedia sobre la curva de Características operativas del receptor da el resultado como una definición de Gini, y el artículo de Hand and Till (citado por nealmcb) simplemente dice que la definición gráfica de Gini usando la curva ROC conduce a esta fórmula.
El problema es que esta definición de Gini se usa en las comunidades de ingeniería y aprendizaje automático, pero los economistas y demógrafos utilizan una definición diferente (volviendo al documento original de Gini). El artículo de Wikipedia sobre el coeficiente de Gini establece esta definición, basada en la curva de Lorenz.
Un artículo de Schechtman y Schechtman (2016) establece la relación entre AUC y la definición original de Gini. Pero para ver que no pueden ser exactamente iguales, suponga que la proporción de eventos es p y que tenemos un clasificador perfecto. La curva ROC luego pasa a través de la esquina superior izquierda y AUCROC es 1. Sin embargo, la curva de Lorenz (volteada) va de (0,0) a ( p , 1) a (1,1) y el Gini de los economistas es 1 - p / 2, que es casi pero no exactamente 1.
Si los eventos son raros, entonces la relación Gini = 2 * AUROC-1 es casi, pero no exactamente cierta, utilizando la definición original de Gini. La relación solo es exactamente cierta si Gini se redefine para hacerla verdadera.
fuente