¿Cuál es la historia detrás de la historia sobre el descriptor SIFT?

9

Lo siguiente es del documento de Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).

Un enfoque obvio sería muestrear las intensidades de la imagen local alrededor del punto clave en la escala apropiada, y hacer coincidir estas utilizando una medida de correlación normalizada. Sin embargo, la correlación simple de los parches de imagen es muy sensible a los cambios que provocan un registro incorrecto de las muestras, como un cambio de punto de vista afín o 3D o deformaciones no rígidas. Edelman, Intrator y Poggio (1997) han demostrado un mejor enfoque. Su representación propuesta se basó en un modelo de visión biológica, en particular de neuronas complejas en la corteza visual primaria.Estas neuronas complejas responden a un gradiente en una orientación particular y frecuencia espacial, pero se permite que la ubicación del gradiente en la retina se desplace sobre un pequeño campo receptivo en lugar de estar localizado con precisión. Edelman y col. La hipótesis de que la función de estas neuronas complejas era permitir la coincidencia y el reconocimiento de objetos 3D desde una variedad de puntos de vista.

Estoy tratando de entender el descriptor SIFT. Entiendo la etapa anterior (detector de punto clave).

No sé por qué se implementa de esa manera. Quiero saber la historia detrás de la historia.

jakeoung
fuente

Respuestas:

1

El descriptor obtenido de un punto de vecindad de interés en la escala obtenida.64×64

Dividirá esta región en parches que conducen a 16 parches.64×64dieciséis×dieciséis

Para cada parche calculamos los gradientes y luego encontramos la dirección dominante de los gradientes (que tiene algunos detalles), luego tomando la dirección dominante como la dirección de referencia dividiremos los 360 grados en 8 regiones angulares, cada una tiene 45 grados, luego sumaremos magnitud de cada gradiente que se encuentra en cada región angular.

Podríamos considerar esto como una distribución o un histograma de 8 bin de la dirección del gradiente (teniendo en cuenta que los gradientes fuertes tienen más información, tenemos que usarlos con mayor peso en el cálculo de la distribución, por lo que usamos su magnitud como su peso, lo que lleva a sumar sobre su magnitud). Entonces normalizaremos estos histogramas.

Al final de cada parche tenemos un histograma de 8 bin y tenemos 16 parches que conducen a un descriptor de 128 números.

Al encontrar la dirección dominante, nuestro descriptor también se vuelve invariante de rotación. Al usar gradientes, nuestro descriptor se vuelve invariante con respecto a la iluminación de la línea de base y al normalizar los histogramas obtenidos, nuestro descriptor se vuelve invariable al contraste de la imagen.

Mohammad M
fuente