¿Por qué la diferencia de la escala espacial gaussiana es invariante?

15

Usaré el algoritmo de transformación de características invariantes de escala como ejemplo aquí. SIFT crea un espacio de escala basado en el filtrado gaussiano a escala de una imagen, y luego calcula la diferencia de los gaussianos para detectar posibles puntos de interés. Estos puntos se definen como los mínimos y máximos locales a través de la diferencia de gaussianos.

Se afirma que este enfoque es invariante de escala (entre otras variaciones desconcertantes). ¿Por qué es esto? No me queda claro por qué este es el caso.

agua
fuente
No sé qué es SIFT, encontré esto en wiki en.wikipedia.org/wiki/Scale-invariant_feature_transform . "El método de Lowe's para la generación de características de imagen transforma una imagen en una gran colección de vectores de características, cada uno de los cuales es invariante para la traducción, escala y rotación de la imagen, parcialmente invariable para los cambios de iluminación y robusto para la distorsión geométrica local". ¿Esa es la explicación?
niaren
Sí, de eso es de lo que estoy hablando
agua
SIFT utiliza la teoría del espacio de escala. Sin embargo, no entiendo lo que se entiende por invariabilidad de "escala" en esa teoría. Puede intentar leer los documentos de Tony Lindeberg al respecto: csc.kth.se/~tony/earlyvision.html
maximus el

Respuestas:

7

El término "escala-invariante" significa lo siguiente aquí. Digamos que tiene la imagen I , y ha detectado una característica (también conocida como un punto de interés) f en algún lugar (x, y) y en algún nivel de escala s . Ahora supongamos que tiene una imagen I ' , que es una versión a escala de I (por ejemplo, disminuida). Luego, si su detector de características es invariante de escala, debería poder detectar la característica correspondiente f ' en I' en la ubicación correspondiente (x ', y') y la escala correspondiente s ' , donde (x, y, s) y (x ', y', s ') están relacionados por la transformación de escala adecuada.

En otras palabras, si su detector invariante de escala ha detectado un punto característico correspondiente a la cara de alguien, y luego acerca o aleja con su cámara en la misma escena, aún debe detectar un punto característico en esa cara.

Por supuesto, también querría un "descriptor de características" que le permitiera hacer coincidir las dos características, que es exactamente lo que SIFT le ofrece.

Entonces, a riesgo de confundirlo aún más, hay dos cosas que son invariantes de escala aquí. Uno es el detector de puntos de interés DoG, que es invariante de escala, ya que detecta un tipo particular de características de imagen (blobs) independientemente de su escala. En otras palabras, el detector DoG detecta gotas de cualquier tamaño. La otra cosa invariante de escala es el descriptor de características, que es un histograma de orientación de gradiente, que se mantiene más o menos similar para la misma característica de imagen a pesar de un cambio en la escala.

Por cierto, la diferencia de gaussianos se usa aquí como una aproximación al filtro laplaciano de gaussianos.

Dima
fuente
Has tomado alguna información de la teoría del espacio-escala. ¿Puede describir la explicación de lo que sucede exactamente en comparación con dos señales usando la teoría de la escala del espacio? El Lindeberg en sus documentos: csc.kth.se/~tony/earlyvision.html hizo algunos ejemplos de detección de manchas, etc. ¿De qué manera la toma de derivadas por el parámetro de escala ayuda en la invariabilidad de la escala?
maximus
Estás en lo correcto. Simplemente estaba tratando de describir la intuición detrás de la teoría del espacio a escala. Lo que está preguntando debería ser una pregunta separada. :) Creo que de lo que estás hablando es que los derivados tomados a diferentes escalas deben normalizarse adecuadamente. A medida que avanza a escalas más gruesas, la señal se suaviza, por lo que se reduce la amplitud. Eso significa que la magnitud de los derivados también se reduce. Por lo tanto, para comparar la respuesta derivada a través de escalas, debe multiplicarlas por
Dima
el poder apropiado de sigma: primera derivada por sigma, segunda por sigma ^ 2, etc.
Dima
@maximus, ¡Uy, tengo niebla en la @. :)
Dima
¡Gracias por su respuesta! Me ayudó, pero todavía hay algunas preguntas que hice como una pregunta diferente aquí: dsp.stackexchange.com/questions/570/…
maximus
5

La diferencia de los gaussianos no es invariante de escala. La escala SIFT (en grado limitado) es invariante porque busca DoG extremos en el espacio de escala, es decir, encontrar escala con DoG extrema tanto espacial como relativamente a escalas vecinas. Debido a que el resultado DoG se obtiene para esta escala fija (que no es una función de la escala de entrada), el resultado es independiente de la escala, es decir, invariante de escala.

mirror2image
fuente
1
Correcto. Pero solo busca extremos a lo largo de escalas vecinas . Esto no es todo escalas, a menos que me equivoque. Incluso si se tratara de escalas, todavía no está claro cómo es independiente de la escala
agua
@water, eso es exactamente correcto. No quieres un extremo en todas las escalas, quieres extremos locales. Esto le permite detectar estructuras anidadas, por ejemplo, un pequeño círculo oscuro dentro de un gran círculo brillante sobre fondo gris.
Dima
Se usa DoG en lugar de LoG porque es más rápido calcular el DoG.
maximus