¿Cuáles son las ventajas de las curvas ROC?
Por ejemplo, estoy clasificando algunas imágenes que es un problema de clasificación binaria. Extraje alrededor de 500 características y apliqué un algoritmo de selección de características para seleccionar un conjunto de características, luego apliqué SVM para la clasificación. En este caso, ¿cómo puedo obtener una curva ROC? ¿Debo cambiar los valores de umbral de mi algoritmo de selección de características y obtener sensibilidad y especificidad de la salida para dibujar una curva ROC?
En mi caso, ¿cuál es el propósito de crear una curva ROC?
machine-learning
roc
usuario570593
fuente
fuente
Respuestas:
Muchos algoritmos de clasificación binaria calculan una especie de puntaje de clasificación (a veces, pero no siempre, es una probabilidad de estar en el estado objetivo), y se clasifican en función de si el puntaje está o no por encima de un cierto umbral. Ver la curva ROC le permite ver el equilibrio entre sensibilidad y especificidad para todos los umbrales posibles en lugar de solo el elegido por la técnica de modelado. Los diferentes objetivos de clasificación pueden hacer que un punto de la curva sea más adecuado para una tarea y otro más adecuado para una tarea diferente, por lo que mirar la curva ROC es una forma de evaluar el modelo independientemente de la elección de un umbral.
fuente
Las curvas ROC no son informativas en el 99% de los casos que he visto en los últimos años. Parecen ser considerados obligatorios por muchos estadísticos e incluso por más practicantes de aprendizaje automático. Y asegúrese de que su problema sea realmente un problema de clasificación y no un problema de estimación de riesgos. El núcleo de los problemas con las curvas ROC es que invitan a los usuarios a usar puntos de corte para variables continuas, y usan probabilidades hacia atrás, es decir, probabilidades de eventos que están en orden de tiempo inverso (sensibilidad y especificidad). Las curvas ROC no se pueden usar para encontrar compensaciones óptimas, excepto en casos muy especiales donde los usuarios de una regla de decisión abdican su función de pérdida (costo; utilidad) para el analista.
fuente
Después de crear una curva ROC, se puede calcular el AUC (área debajo de la curva). El AUC es la precisión de la prueba en muchos umbrales. AUC = 1 significa que la prueba es perfecta. AUC = .5 significa que funciona al azar para la clasificación binaria.
Si hay varios modelos, AUC proporciona una sola medición para comparar entre diferentes modelos. Siempre hay compensaciones con cualquier medida individual, pero AUC es un buen lugar para comenzar.
fuente
El AUC no compara las clases reales versus las predichas entre sí. No se trata de la clase predicha, sino del puntaje de predicción o la probabilidad. Puede hacer la predicción de la clase aplicando un límite a esta puntuación, por ejemplo, cada muestra que obtuvo una puntuación inferior a 0,5 se clasifica como negativa. Pero el ROC llega antes de que eso suceda. Está trabajando con los puntajes / probabilidades de clase.
Toma estos puntajes y clasifica todas las muestras de acuerdo con ese puntaje. Ahora, cada vez que encuentre una muestra positiva, la curva ROC da un paso hacia arriba (a lo largo del eje y). Cada vez que encuentra una muestra negativa, se mueve hacia la derecha (a lo largo del eje x). Si ese puntaje es diferente para las dos clases, las muestras positivas son lo primero (generalmente). Eso significa que das más pasos que a la derecha. Más abajo en la lista vendrán las muestras negativas, por lo que debe moverse hacia la izquierda. Cuando haya terminado la lista completa de muestras, llegará a la coordenada (1,1) que corresponde al 100% de las muestras positivas y al 100% de las negativas.
Si el puntaje separa perfectamente las muestras positivas de las negativas, se mueve desde (x = 0, y = 0) a (1,0) y luego desde allí a (1, 1). Entonces, el área debajo de la curva es 1.
Si su puntaje tiene la misma distribución para muestras positivas y negativas, las probabilidades de encontrar una muestra positiva o negativa en la lista ordenada son iguales y, por lo tanto, las probabilidades de moverse hacia arriba o hacia la izquierda en la curva ROC son iguales. Es por eso que te mueves a lo largo de la diagonal, porque esencialmente te mueves hacia arriba y hacia la izquierda, y hacia arriba y hacia la izquierda, y así sucesivamente ... lo que da un valor AROC de alrededor de 0.5.
En el caso de un conjunto de datos desequilibrado, el tamaño de los pasos es diferente. Entonces, realiza pasos más pequeños a la izquierda (si tiene más muestras negativas). Es por eso que el puntaje es más o menos independiente del desequilibrio.
Entonces, con la curva ROC, puede visualizar cómo se separan sus muestras y el área debajo de la curva puede ser una muy buena métrica para medir el rendimiento de un algoritmo de clasificación binaria o cualquier variable que pueda usarse para separar clases.
La figura muestra las mismas distribuciones con diferentes tamaños de muestra. El área negra muestra dónde se esperarían curvas ROC de mezclas aleatorias de muestras positivas y negativas.
fuente