Curvas ROC para conjuntos de datos no balanceados

10

Considere una matriz de entrada y una salida binaria y .Xy

Una forma común de medir el rendimiento de un clasificador es usar curvas ROC.

En una gráfica ROC, la diagonal es el resultado que se obtendría de un clasificador aleatorio. En caso de una salida no balanceada el rendimiento de un clasificador aleatorio se puede mejorar la elección de 0 o 1 con diferentes probabilidades.y01

¿Cómo se puede representar el rendimiento de dicho clasificador en un gráfico de curva ROC? Supongo que debería ser una línea recta con un ángulo diferente, y ya no la diagonal.

Ejemplo de curva ROC

Donbeo
fuente
2
Es posible que desee probar la curva de recuperación de precisión en su lugar, "La gráfica de recuperación de precisión es más informativa que la gráfica ROC al evaluar clasificadores binarios en conjuntos de datos desequilibrados", ncbi.nlm.nih.gov/pmc/articles/PMC4349800 , probablemente más sitio web accesible creado por los autores del artículo, classeval.wordpress.com/simulation-analysis/…
zyxue

Respuestas:

16

Las curvas ROC son insensibles al equilibrio de clase. La línea recta que obtienes para un clasificador aleatorio ahora ya es el resultado de usar diferentes probabilidades de rendir positivo (0 te lleva a (0, 0) y 1 te lleva a (1, 1) con cualquier rango intermedio).

Nada cambia en un entorno desequilibrado.

Marc Claesen
fuente
1
Me resulta útil considerar el significado del área bajo la curva para ver por qué la diagonal no cambia. AUC puede interpretarse como la probabilidad de que un ejemplo positivo seleccionado al azar tenga una puntuación más alta que un ejemplo negativo seleccionado al azar. 1 . Esto me deja más claro por qué el desequilibrio de clase no es un problema.
JBecker