Use AI o red neuronal para la detección de logotipos

10

Estoy tratando de detectar el logotipo de un canal de TV dentro de un archivo de video, así que simplemente dado un .mp4video de entrada , detectar si tiene ese logotipo presente en un cuadro específico, digamos el primer cuadro, o no.

Tenemos ese logotipo de antemano (aunque podría no ser del mismo tamaño) y la ubicación siempre es fija.

Ya tengo un enfoque basado en la coincidencia de patrones. Pero eso requiere que el patrón sea% 100 del mismo tamaño. Me gustaría usar Deep Learning y Neural Network para lograr eso. ¿Cómo puedo hacer eso? ¿Creo que CNN puede tener una mayor eficiencia?

Tina J
fuente
1
¡Bienvenido a AI! Gran tema
DukeZhou
1
@DukeZhou Tnx! Espero obtener respuestas adecuadas con punteros a algunos códigos de muestra.
Tina J

Respuestas:

5

Para realizar el reconocimiento de imágenes, debe encontrar una manera de representar una imagen con ciertas características.

Una de las características definitorias de un buen algoritmo de reconocimiento de imágenes es su capacidad para detectar regiones sobresalientes, es decir, regiones que contienen la mayor cantidad de información.

En este momento, se presta mucha atención al aprendizaje profundo para la clasificación de imágenes basada en contenido. Puede lograr resultados decentes implementando el aprendizaje profundo con tres o más capas de CNN donde cada capa es responsable de extraer una o más características de la imagen.

Seth Simba
fuente
Gracias. Yo tampoco soy un chico de CNN. Pero, ¿hay algún puntero a un código fuente que, dada una imagen de logotipo, pueda detectar si existe o no?
Tina J
3
Hola, echa un vistazo a DeepLogo en Github por Satoj Kovic. Está escrito en Python y utiliza CNN para reconocer los logotipos de la marca. He publicado el siguiente enlace. Salud. github.com/satojkovic/DeepLogo
Seth Simba
3

Debido a que es entrada de video y los logotipos son generalmente estacionarios porque están en capas sobre los cuadros en vivo o grabados, ya sea por hardware o software, la tarea no es difícil. Los logotipos también suelen tener paletas de colores limitadas y bordes nítidos. Las características de sus fuentes, cuando deletrean palabras o siglas, generalmente también son consistentes. Estas son generalidades que pueden explotarse en el aprendizaje profundo.

Al igual que con la otra pregunta similar publicada por este autor, se puede entrenar una combinación de capas LSTM y CNN para encontrar y aislar el logotipo. Con algunos trucos de imagen, la imagen detrás del logotipo también se puede reconstruir con una precisión y fiabilidad razonables a partir de los píxeles alrededor del logotipo a través de un conjunto similar de técnicas de aprendizaje.

Estos son algunos puntos de partida para el desarrollo.

Douglas Daseeco
fuente