Lista de posibles características de imagen para la recuperación de imágenes basada en contenido

15

Estoy tratando de encontrar una lista de posibles características de imagen como color, bordes orientados, etc. para medir su usabilidad en caso de encontrar objetos iguales / similares en las imágenes. ¿Alguien sabe tal lista o al menos algunas características?

jstr
fuente
Esto está fuera del tema, pero, ¿CBIR puede extraer la función del conjunto de datos Open Image? ¿Es posible extraer la característica de una imagen aunque la imagen no se guarde en el disco local?
Quix0te

Respuestas:

25

El campo en sí es demasiado vasto. Así que dudo que puedas tener una lista completamente exhaustiva aquí. Sin embargo, MPEG 7 es uno de los principales esfuerzos para estandarizar esta área. Entonces, lo que se incluye aquí no es universal, sino al menos el más primario.

Aquí hay algunos conjuntos de características clave que se identifican en MPEG7 (realmente solo puedo hablar sobre los descriptores visuales, no otros ven esto para un alcance completo).

Hay 4 categorías de descriptores visuales:

1. Descriptores de color que incluyen:
color dominante,
diseño de color (esencialmente color primario bloque por bloque)
color escalable (esencialmente histograma de color),
estructura de color (esencialmente histograma de color local)
y espacios de color para hacer que las cosas sean interoperables.

2. Descriptores de textura (ver también esto ) que incluye:
Descriptor de navegación de textura - que define la granularidad / grosería, regularidad y dirección. Descriptor de textura homogénea, que se basa en el banco de filtros Gabor. y
histograma de borde

3. Descriptores de forma que incluyen: Los
descriptores basados ​​en la región son atributos escalares de la forma en consideración, como área, excentricidades, etc.
Basado en el contorno que captura características de forma características reales y
descriptores 3D

4. Descriptores de movimiento para
movimiento de cámara de video (parámetros de movimiento de cámara 3D)
Trayectoria de movimiento (de objetos en la escena) [p. Ej. Extraído por algoritmos de seguimiento] Movimiento paramétrico (p. Ej. Vectores de movimiento, que permite la descripción del movimiento de la escena. Pero puede ser modelos más complejos en varios objetos).
Actividad que es más un descriptor semántico.


MPEG 7 no define "Cómo se extraen estos", solo define lo que significan y cómo representarlos / almacenarlos. Entonces, existe investigación sobre cómo extraerlos y usarlos.

Aquí hay otro buen artículo que da una idea de este tema.

Pero sí, muchas de estas características son bastante básicas y pueden requerirse más investigaciones para crear un conjunto de características más sofisticado (y complejo).

Dipan Mehta
fuente
6

También hay un libro que agrupa un conjunto de documentos relacionados con este tema. Se llama Principios de recuperación de información visual .

Geerten
fuente
Google sobre los libros no revela muchas críticas positivas. Más quejas que positivas en realidad. ¿Todavía crees que es una buena referencia y, de ser así, tal vez podrías decirnos cuándo te fue útil? :)
penelope
La razón principal para ponerlo aquí no es que lo haya usado mucho, pero mi maestro lo recomendó (y valoro su opinión). Google al respecto muestra que es realmente un paquete de papeles, y no realmente un libro. También muestra que es bastante antiguo, pero es uno de los pocos libros sobre el tema. Por lo tanto, creo que mi respuesta sigue siendo apropiada.
Geerten
3

@Dipan Mehta cubrió los descriptores de características que se pueden usar. Permítanme ahora tratar de cubrir el otro lado de la moneda mencionando algunos métodos de detección de características que extraen características buenas para CBIR .

Mi referencia para mi investigación CBIR fueron los documentos de Sivic, Zisserman y Nister, Stewenius . Hay más trabajos actuales de estos autores, pero estos presentan todas las ideas relevantes.

Argumentan que para implementar métodos CBIR eficientes , deben usarse características de propiedades complementarias :

  • Regiones adaptadas a la forma : tienden a centrarse en las características de esquina

    ejemplos: esquinas de Harris, Harris de múltiples escalas, DoG (Diferencia de gaussianos, ¡pero también responde a los bordes!)

  • Máximamente estables regiones - tienden a estar centrado en burbuja-como características

    ejemplos: MSER (regiones externas máximamente estables), DoG

Sorprendentemente, Wikipedia también ofrece una buena clasificación de los tipos de características (detectores), indicando el tipo de regiones de interés que detectan para la mayoría de las características actuales ampliamente utilizadas:

  • detectores de borde
  • detectores de esquina
  • detectores de gotas
  • detectores de cresta

La mayoría de los artículos actuales que he leído juran que los descriptores SIFT (transformador de características invariantes de escala) son lo suficientemente sólidos como para usar en combinación con detectores de características elegidos. Las referencias incluyen:

  • enlaces ya proporcionados
  • Mikolajczyk, Schmid se ocupa de la comparación de descriptores locales
  • Dahl evalúa combinaciones de detector-descriptor

¡Nota! que estos documentos no tratan estrictamente con CBIR sino que se usan como referencias en trabajos relacionados con CBIR .

Finalmente, vale la pena mencionar que los métodos CBIR exitosos no dependen solo de los detectores de características y descriptores utilizados, sino también:

  • Una estructura de búsqueda eficiente (cuantización de características visuales)
  • forma de construir descriptores de imágenes , ya sea en función de las características visuales comunes (descriptores locales) o mediante la comparación de descriptores de imágenes globales (esta es una idea muy nueva, por lo que actualmente no hay referencias)
  • medida de distancia entre descriptores de imagen

Además, ya he respondido algunas preguntas sobre CBIR en DSP y stackoverflow , ambas están acompañadas de referencias y explicaciones y creo que pueden ser relevantes, por lo que es posible que desee echar un vistazo:

  • DSP: 1
  • stackoverflow: 1 , 2
penelope
fuente