¿Cómo formar una curva de recuperación de precisión cuando solo tengo un valor para PR?

12

Tengo una asignación de minería de datos donde hago un sistema de recuperación de imágenes basado en contenido. Tengo 20 imágenes de 5 animales. Entonces en total 100 imágenes.

Mi sistema devuelve las 10 imágenes más relevantes a una imagen de entrada. Ahora necesito evaluar el rendimiento de mi sistema con una curva Precision-Recall. Sin embargo, no entiendo el concepto de una curva Precision-Recall. Digamos que mi sistema devuelve 10 imágenes para una imagen de gorila, pero solo 4 de ellas son gorilas. Las otras 6 imágenes devueltas son de otros animales '. Así,

  • la precisión es 4/10 = 0.4(relevantes devueltos) / (todos devueltos)
  • el retiro es 4/20 = 0.2(relevancia devuelta) / (toda relevancia)

Entonces solo tengo un punto <0.2,0.4>, no una curva. ¿Cómo tengo una curva (es decir, un conjunto de puntos)? ¿Debo cambiar la cantidad de imágenes devueltas (en mi caso, esto se fija en 10)?

jeff
fuente
2
La mayoría de los modelos asignan una probabilidad de pertenecer a una clase, no a una clase en sí misma, o se exprime uno de un clasificador. La curva se deriva cambiando el límite de probabilidad. Es probable que obtenga respuestas más detalladas si menciona el clasificador que está utilizando.
charles
Calculo los vectores de características (color, textura y forma) y obtengo puntajes de similitud para cada uno, los sumo para obtener un puntaje de similitud total, luego los ordeno descendentes. Los 10 principales índices de imágenes son los más relevantes. Puedo obtener el índice de clase del índice de imágenes ya que las imágenes están ordenadas (20 gorilas, 20 jirafas, etc.) Espero haberme aclarado, ya que no entiendo completamente los conceptos clasificador / descriptor, etc.
jeff
Me di cuenta de que no leía bien la pregunta. Pensé que tenías un problema de dos clases (gorila / no-gorilla). Con más clases más allá de mí, esto puede ser útil: stats.stackexchange.com/questions/2151/…
charles

Respuestas:

11

Generar una curva PR es similar a generar una curva ROC. Para dibujar tales trazados necesita una clasificación completa del conjunto de prueba. Para realizar esta clasificación, necesita un clasificador que genere un valor de decisión en lugar de una respuesta binaria. El valor de decisión es una medida de confianza en una predicción que podemos usar para clasificar todas las instancias de prueba. Como ejemplo, los valores de decisión de regresión logística y SVM son una probabilidad y una distancia (con signo) al hiperplano de separación, respectivamente.

f(x)=0.5(0,1)

(Ti,Pi,Ri)(Pi,Ri)

Si entendí su comentario correctamente, el puntaje de similitud total que calcula puede usarse como un valor de decisión.

Marc Claesen
fuente
Esto no está claro para mí, ¿puede trabajar con un ejemplo detallado similar a la situación de recuperación de imágenes de animales del OP?
MR