Matemáticas de detección de punto de esquina de Harris

23

Esta es la expresión matemática para la detección de esquinas de Harris:

Esta es la expresión matemática para la detección de esquinas de Harris ...

Pero tengo las siguientes dudas:

  1. ¿Cuál es el significado físico de y ? Muchas referencias dicen que es la magnitud en que la ventana cambió. Entonces, ¿cuánto cambia la ventana? ¿Un píxel o dos píxeles?tuvw
  2. ¿La suma sobre las posiciones de píxeles está cubierta por la ventana?
  3. Suponiendo que simplemente , es la intensidad del píxel único en o la suma de las intensidades dentro de la ventana con el centro en ?w(X,y)=1yo(X,y)(X,y)(X,y)
  4. Según la wiki , dicen que la imagen es 2D, denotada por I y luego pide considerar un parche de imagen sobre el área , luego usa la notación(X,y)yo(X,y)

Me resulta confuso comprender la explicación matemática. Alguien tiene una idea?

imagen_rotación
fuente
2
Echa un vistazo a esta conferencia sobre el detector de esquina Harris. Está muy claro: youtube.com/watch?v=P35WsRDnTsU&t=41m12s
Escribí una publicación en mi blog personal que se basa en la conferencia anterior. matlabcorner.wordpress.com/2012/11/17/…
Andrey Rubshtein

Respuestas:

31

El significado de esa fórmula es realmente bastante simple. Imagine que toma dos áreas pequeñas del mismo tamaño de una imagen, la azul y la roja:

ingrese la descripción de la imagen aquí

La función de ventana es igual a 0 fuera del rectángulo rojo (por simplicidad, podemos suponer que la ventana es simplemente constante dentro del rectángulo rojo). Por lo tanto, la función de ventana selecciona los píxeles que desea ver y asigna pesos relativos a cada píxel. (La más común es la ventana gaussiana, porque es rotacionalmente simétrica, eficiente para calcular y enfatiza los píxeles cerca del centro de la ventana). El rectángulo azul se desplaza por (u, v).

Luego calcula la suma de la diferencia al cuadrado entre las partes de la imagen marcadas en rojo y azul, es decir, las resta píxel por píxel, cuadra la diferencia y suma el resultado (suponiendo, por simplicidad, que la ventana = 1 en el área que estamos buscando a). Esto le da un número por cada posible (u, v) -> E (u, v).

Veamos qué sucede si calculamos eso para diferentes valores de u / v:

Primero mantenga v = 0:

ingrese la descripción de la imagen aquí

Esto no debería sorprendernos: la diferencia entre las partes de la imagen es menor cuando el desplazamiento (u, v) entre ellas es 0. A medida que aumenta la distancia entre los dos parches, la suma de las diferencias al cuadrado también aumenta.

Manteniendo u = 0:

ingrese la descripción de la imagen aquí

El diagrama se ve similar, pero la suma de las diferencias al cuadrado entre las dos partes de la imagen es mucho más pequeña cuando desplaza el rectángulo azul en la dirección del borde.

Una trama completa de E (u, v) se ve así:

ingrese la descripción de la imagen aquí

La trama se parece un poco a un "cañón": solo hay una pequeña diferencia si cambia la imagen en la dirección del cañón. Esto se debe a que este parche de imagen tiene una orientación dominante (vertical).

Podemos hacer lo mismo para un parche de imagen diferente:

ingrese la descripción de la imagen aquí

Aquí, la gráfica de E (u, v) se ve diferente:

ingrese la descripción de la imagen aquí

No importa en qué forma cambie el parche, siempre se ve diferente.

Entonces, la forma de la función E (u, v) nos dice algo sobre el parche de imagen

  • si E (u, v) está cerca de 0 en todas partes, no hay textura en el parche de imagen que está viendo
  • Si E (u, v) tiene "forma de cañón", el parche tiene una orientación dominante (esto podría ser un borde o una textura)
  • si E (u, v) tiene "forma de cono", el parche tiene textura, pero no tiene orientación dominante. Ese es el tipo de parche que busca un detector de esquinas.

Muchas referencias dicen que es la magnitud por la cual la ventana 'w' cambió ... entonces, ¿cuánto cambia la ventana? Un píxel ... dos píxeles?

Normalmente, no calculas E (u, v) en absoluto. Solo le interesa la forma en el vecindario de (u, v) = (0,0). Entonces, solo desea la expansión Taylor de E (u, v) cerca de (0,0), que describe completamente la "forma" de la misma.

¿La suma sobre las posiciones de píxeles está cubierta por la ventana?

Matemáticamente hablando, es más elegante dejar que la suma se extienda sobre todos los píxeles. Prácticamente hablando, no tiene sentido sumar píxeles donde la ventana es 0.

Niki Estner
fuente
Gracias una tonelada Nikie ....
rotating_image
2
Sabía que obtendría una excelente respuesta aquí, @rotating_image
karlphillip
Gracias karlphillip ..
rotating_image
1
¡Un millón de votos a favor!
Phonon