Estoy tratando de entender cómo y por qué la transformación de Fourier se usa en el procesamiento de imágenes / visión por computadora. A continuación se muestra lo que he reunido hasta ahora. ¿Sería correcto entenderlo? Si no es así, ¿podría alguien explicármelo en inglés simple y sencillo? O, ¿alguien tiene algo que agregar? Por último, pero no menos importante, ¿podría alguien explicar la "transformada discreta de Fourier"?
La transformada de Fourier descompone una imagen en sus componentes seno y coseno. En pocas palabras, el seno y el coseno son ondas que comienzan en un mínimo y un máximo, respectivamente. En el mundo real, no podemos decir si una ola que observamos comenzó en un punto máximo o mínimo, y por lo tanto, no podemos distinguir realmente entre los dos. Por lo tanto, seno y coseno se conocen simplemente como sinusoides.
Cuando aplicamos el FT a una imagen, lo transformamos de su dominio espacial en un "dominio de frecuencia", que en esencia es la imagen representada en términos de su variación de color y brillo a lo largo del tiempo (bueno, no tiempo, sino espacio). es decir, en varios píxeles).
EDITAR: ¿Por qué usaría la Transformada de Fourier? ¿Y cuáles son sus beneficios sobre otros métodos? Por ejemplo, una aplicación en la literatura es en reconocimiento de forma o eliminación de ruido. En términos básicos, ¿cómo podría uno hacer un reconocimiento de forma usando el FT?
Respuestas:
A nivel conceptual, la Transformada de Fourier le dice lo que está sucediendo en la imagen en términos de las frecuencias de esas sinusoides. Por ejemplo, si tiene una imagen de un muro plano, los valores de los píxeles cambian muy poco a medida que avanza de izquierda a derecha o de arriba a abajo. En el dominio de la frecuencia, eso significa que su imagen contiene frecuencias bajas, pero no frecuencias altas.
Por otro lado, si tiene una imagen de una cerca de piquete, los valores de los píxeles cambian todo el tiempo a medida que avanza de izquierda a derecha. Entonces, en el dominio de Fourier, tiene altas frecuencias en la dirección X, pero no en la dirección Y.
Finalmente, si tiene una imagen de un tablero de ajedrez, los valores de los píxeles cambian mucho en ambas direcciones. Por lo tanto, la transformada de Fourier de la imagen tendrá altas frecuencias tanto en X como en Y.
Debido a que la transformación de Fourier le dice lo que está sucediendo en su imagen, a menudo es conveniente describir las operaciones de procesamiento de imágenes en términos de lo que hacen a las frecuencias contenidas en la imagen. Por ejemplo, la eliminación de altas frecuencias difumina la imagen. Eliminar las bajas frecuencias te da aristas. Y mejorar las frecuencias altas mientras se mantienen las frecuencias bajas agudiza la imagen.
FFT se usa ampliamente en el procesamiento de imágenes y la visión por computadora. Por ejemplo, la convolución, una operación fundamental de procesamiento de imágenes, se puede hacer mucho más rápido usando el FFT. El filtro de Wiener, utilizado para la eliminación de imágenes borrosas, se define en términos de la transformada de Fourier. Pero lo más importante, incluso cuando la transformación de Fourier no se usa directamente, proporciona un marco muy útil para razonar sobre las operaciones de procesamiento de imágenes.
Steve Eddins, uno de los autores de "Procesamiento digital de imágenes con MATLAB", tiene toda una serie de publicaciones de blog sobre la transformación de Fourier y cómo se utiliza en el procesamiento de imágenes.
fuente