Tengo una asignación de minería de datos donde hago un sistema de recuperación de imágenes basado en contenido. Tengo 20 imágenes de 5 animales. Entonces en total 100 imágenes.
Mi sistema devuelve las 10 imágenes más relevantes a una imagen de entrada. Ahora necesito evaluar el rendimiento de mi sistema con una curva Precision-Recall. Sin embargo, no entiendo el concepto de una curva Precision-Recall. Digamos que mi sistema devuelve 10 imágenes para una imagen de gorila, pero solo 4 de ellas son gorilas. Las otras 6 imágenes devueltas son de otros animales '. Así,
- la precisión es
4/10 = 0.4
(relevantes devueltos) / (todos devueltos) - el retiro es
4/20 = 0.2
(relevancia devuelta) / (toda relevancia)
Entonces solo tengo un punto <0.2,0.4>
, no una curva. ¿Cómo tengo una curva (es decir, un conjunto de puntos)? ¿Debo cambiar la cantidad de imágenes devueltas (en mi caso, esto se fija en 10)?
Respuestas:
Generar una curva PR es similar a generar una curva ROC. Para dibujar tales trazados necesita una clasificación completa del conjunto de prueba. Para realizar esta clasificación, necesita un clasificador que genere un valor de decisión en lugar de una respuesta binaria. El valor de decisión es una medida de confianza en una predicción que podemos usar para clasificar todas las instancias de prueba. Como ejemplo, los valores de decisión de regresión logística y SVM son una probabilidad y una distancia (con signo) al hiperplano de separación, respectivamente.
Si entendí su comentario correctamente, el puntaje de similitud total que calcula puede usarse como un valor de decisión.
fuente