Tengo una pregunta sobre el reconocimiento de objetos, ¡especialmente el reconocimiento de modelos de automóviles! Estoy al comienzo de un trabajo sobre la identificación del mismo modelo de automóvil en diferentes imágenes. Por el momento, creo que uno de los mejores algoritmos para el reconocimiento de objetos 3D es SIFT, pero después de jugar un poco con una implementación de demostración, tengo la extraña sensación de que este algoritmo tiene algunos problemas con objetos metálicos brillantes como los automóviles, especialmente si tienen colores diferentes.
¿Alguien sabe algún trabajo en esta área en general algún algoritmo adecuado para la tarea de encontrar el mismo modelo de automóvil en diferentes imágenes?
¡Gracias de antemano por tu ayuda!
Respuestas:
Echaría un vistazo al llamado enfoque de "bolsa de palabras" o "palabras visuales". Se utiliza cada vez más para la categorización e identificación de imágenes. Este algoritmo generalmente comienza detectando puntos robustos, como los puntos SIFT, en una imagen. Se utiliza la región alrededor de estos puntos encontrados (el descriptor SIFT de 128 bits en su caso).
En la forma más simple, uno puede recopilar todos los datos de todos los descriptores de todas las imágenes y agruparlos, por ejemplo, utilizando k-means. Cada imagen original tiene descriptores que contribuyen a varios grupos. Los centroides de estos grupos, es decir, las palabras visuales, se pueden usar como un nuevo descriptor para la imagen. Básicamente, espera que los grupos de una imagen a la que contribuyen sus descriptores, sea indicativo de la categoría de la imagen.
Nuevamente, en el caso más simple, tiene una lista de grupos y, por imagen, cuenta cuáles de estos grupos contenían descriptores de esa imagen y cuántos. Esto es similar al método de frecuencia de término / frecuencia de documento inversa (TD / IFD) utilizado en la recuperación de texto. Vea este rápido y sucio script de Matlab .
Este enfoque se investiga activamente y existen muchos algoritmos mucho más avanzados.
El sitio web VLfeat contiene una demostración más avanzada de este enfoque, clasificando el conjunto de datos caltech 101. También son dignos de mención los resultados y el software de Caltech .
fuente