Lo siguiente es del documento de Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).
Un enfoque obvio sería muestrear las intensidades de la imagen local alrededor del punto clave en la escala apropiada, y hacer coincidir estas utilizando una medida de correlación normalizada. Sin embargo, la correlación simple de los parches de imagen es muy sensible a los cambios que provocan un registro incorrecto de las muestras, como un cambio de punto de vista afín o 3D o deformaciones no rígidas. Edelman, Intrator y Poggio (1997) han demostrado un mejor enfoque. Su representación propuesta se basó en un modelo de visión biológica, en particular de neuronas complejas en la corteza visual primaria.Estas neuronas complejas responden a un gradiente en una orientación particular y frecuencia espacial, pero se permite que la ubicación del gradiente en la retina se desplace sobre un pequeño campo receptivo en lugar de estar localizado con precisión. Edelman y col. La hipótesis de que la función de estas neuronas complejas era permitir la coincidencia y el reconocimiento de objetos 3D desde una variedad de puntos de vista.
Estoy tratando de entender el descriptor SIFT. Entiendo la etapa anterior (detector de punto clave).
No sé por qué se implementa de esa manera. Quiero saber la historia detrás de la historia.