Tengo problemas para entender la curva ROC.
¿Hay alguna ventaja / mejora en el área bajo la curva ROC si construyo modelos diferentes de cada subconjunto único del conjunto de entrenamiento y lo uso para generar una probabilidad? Por ejemplo, si tiene valores de , y modelo de acumulación mediante el uso de de los valores 1 al 4 de y los valores 8 y 9 de y construir el modelo utilizando los datos del tren restante. Finalmente, genera probabilidad. Cualquier pensamiento / comentario será muy apreciado.
Aquí está el código r para una mejor explicación de mi pregunta:
Y = factor(0,0,0,0,1,1,1,1)
X = matirx(rnorm(16,8,2))
ind = c(1,4,8,9)
ind2 = -ind
mod_A = rpart(Y[ind]~X[ind,])
mod_B = rpart(Y[-ind]~X[-ind,])
mod_full = rpart(Y~X)
pred = numeric(8)
pred_combine[ind] = predict(mod_A,type='prob')
pred_combine[-ind] = predict(mod_B,type='prob')
pred_full = predict(mod_full, type='prob')
Así que mi pregunta es, el área bajo la curva ROC de pred_combine
frente pred_full
.
Respuestas:
No estoy seguro de haber recibido la pregunta, pero como el título pide una explicación de las curvas ROC, lo intentaré.
Las curvas ROC se utilizan para ver qué tan bien su clasificador puede separar ejemplos positivos y negativos e identificar el mejor umbral para separarlos.
Para poder usar la curva ROC, su clasificador debe estar clasificado , es decir, debe ser capaz de clasificar ejemplos de manera que los que tengan un rango más alto sean más propensos a ser positivos. Por ejemplo, la regresión logística genera probabilidades, que es un puntaje que puede usar para clasificar.
Dibujo de curva ROC
Dado un conjunto de datos y un clasificador de clasificación:
donde y son las fracciones de ejemplos positivos y negativos respectivamente.negpos neg
Esta bonita imagen animada de gif debería ilustrar este proceso más claramente
En este gráfico, el eje es una tasa positiva verdadera, y el eje es una tasa positiva falsa. Tenga en cuenta la línea diagonal: esta es la línea de base, que se puede obtener con un clasificador aleatorio. Cuanto más se encuentre nuestra curva ROC por encima de la línea, mejor.xy x
Área bajo ROC
El área debajo de la curva ROC (sombreada) muestra naturalmente qué tan lejos está la curva de la línea base. Para la línea base es 0.5, y para el clasificador perfecto es 1.
Puede leer más sobre AUC ROC en esta pregunta: ¿Qué significa AUC y qué es?
Seleccionar el mejor umbral
Esbozaré brevemente el proceso de selección del mejor umbral, y se pueden encontrar más detalles en la referencia.
Para seleccionar el mejor umbral, verá cada punto de su curva ROC como un clasificador separado. Este mini-clasificador utiliza la puntuación que obtuvo el punto como límite entre + y - (es decir, clasifica como + todos los puntos por encima del actual)
Dependiendo de la fracción pos / neg en nuestro conjunto de datos, paralela a la línea de base en el caso del 50% / 50%, puede construir líneas de precisión ISO y tomar la que tenga la mejor precisión.
Aquí hay una imagen que ilustra eso y para más detalles nuevamente los invito a la referencia
Referencia
fuente