Considere una matriz de entrada y una salida binaria y .
Una forma común de medir el rendimiento de un clasificador es usar curvas ROC.
En una gráfica ROC, la diagonal es el resultado que se obtendría de un clasificador aleatorio. En caso de una salida no balanceada el rendimiento de un clasificador aleatorio se puede mejorar la elección de 0 o 1 con diferentes probabilidades.
¿Cómo se puede representar el rendimiento de dicho clasificador en un gráfico de curva ROC? Supongo que debería ser una línea recta con un ángulo diferente, y ya no la diagonal.
Respuestas:
Las curvas ROC son insensibles al equilibrio de clase. La línea recta que obtienes para un clasificador aleatorio ahora ya es el resultado de usar diferentes probabilidades de rendir positivo (0 te lleva a (0, 0) y 1 te lleva a (1, 1) con cualquier rango intermedio).
Nada cambia en un entorno desequilibrado.
fuente