Esta es la expresión matemática para la detección de esquinas de Harris:
Pero tengo las siguientes dudas:
- ¿Cuál es el significado físico de y ? Muchas referencias dicen que es la magnitud en que la ventana cambió. Entonces, ¿cuánto cambia la ventana? ¿Un píxel o dos píxeles?
- ¿La suma sobre las posiciones de píxeles está cubierta por la ventana?
- Suponiendo que simplemente , es la intensidad del píxel único en o la suma de las intensidades dentro de la ventana con el centro en ?
- Según la wiki , dicen que la imagen es 2D, denotada por I y luego pide considerar un parche de imagen sobre el área , luego usa la notación
Me resulta confuso comprender la explicación matemática. Alguien tiene una idea?
image-processing
opencv
linear-algebra
imagen_rotación
fuente
fuente
Respuestas:
El significado de esa fórmula es realmente bastante simple. Imagine que toma dos áreas pequeñas del mismo tamaño de una imagen, la azul y la roja:
La función de ventana es igual a 0 fuera del rectángulo rojo (por simplicidad, podemos suponer que la ventana es simplemente constante dentro del rectángulo rojo). Por lo tanto, la función de ventana selecciona los píxeles que desea ver y asigna pesos relativos a cada píxel. (La más común es la ventana gaussiana, porque es rotacionalmente simétrica, eficiente para calcular y enfatiza los píxeles cerca del centro de la ventana). El rectángulo azul se desplaza por (u, v).
Luego calcula la suma de la diferencia al cuadrado entre las partes de la imagen marcadas en rojo y azul, es decir, las resta píxel por píxel, cuadra la diferencia y suma el resultado (suponiendo, por simplicidad, que la ventana = 1 en el área que estamos buscando a). Esto le da un número por cada posible (u, v) -> E (u, v).
Veamos qué sucede si calculamos eso para diferentes valores de u / v:
Primero mantenga v = 0:
Esto no debería sorprendernos: la diferencia entre las partes de la imagen es menor cuando el desplazamiento (u, v) entre ellas es 0. A medida que aumenta la distancia entre los dos parches, la suma de las diferencias al cuadrado también aumenta.
Manteniendo u = 0:
El diagrama se ve similar, pero la suma de las diferencias al cuadrado entre las dos partes de la imagen es mucho más pequeña cuando desplaza el rectángulo azul en la dirección del borde.
Una trama completa de E (u, v) se ve así:
La trama se parece un poco a un "cañón": solo hay una pequeña diferencia si cambia la imagen en la dirección del cañón. Esto se debe a que este parche de imagen tiene una orientación dominante (vertical).
Podemos hacer lo mismo para un parche de imagen diferente:
Aquí, la gráfica de E (u, v) se ve diferente:
No importa en qué forma cambie el parche, siempre se ve diferente.
Entonces, la forma de la función E (u, v) nos dice algo sobre el parche de imagen
Normalmente, no calculas E (u, v) en absoluto. Solo le interesa la forma en el vecindario de (u, v) = (0,0). Entonces, solo desea la expansión Taylor de E (u, v) cerca de (0,0), que describe completamente la "forma" de la misma.
Matemáticamente hablando, es más elegante dejar que la suma se extienda sobre todos los píxeles. Prácticamente hablando, no tiene sentido sumar píxeles donde la ventana es 0.
fuente