Imágenes no cuadradas para clasificación de imágenes

9

Tengo un conjunto de datos de imágenes anchas: 1760x128. He leído tutoriales y libros, y la mayoría de ellos declaran que las imágenes de entrada deben ser cuadradas y, si no, se transforman en cuadradas para que se entrenen en CNN ya entrenadas (en imágenes cuadradas). ¿Hay alguna forma de entrenar cnn para imágenes no cuadradas, o debería buscar otra opción como relleno?

Voila
fuente

Respuestas:

4

Hay varias formas de resolver el problema según el clasificador. Windows deslizante es el método con el que estoy más familiarizado, esto se usa para los métodos de red neuronal. Este método implica tomar una pequeña imagen secundaria y desplazarla hacia arriba y hacia abajo con algunas superposiciones. Algunos problemas incluyen encontrar los parámetros de cambio óptimos y problemas de escala múltiple.

La detección final generalmente se determina por la confianza del clasificador en que cada una de las subimágenes pertenece a esa clase: por ejemplo, voto mayoritario, probabilidad total o distancia total desde el límite de decisión. He enumerado algunos materiales a continuación, el primero es para el método clasificador HOG pero los conceptos son los mismos.

  1. Ventanas deslizantes de detección de objetos
  2. Detección de categoría de objeto: ventanas deslizantes
  3. OverFeat Reconocimiento integrado, localización y detección utilizando redes convolucionales
Joseph Santarcangelo
fuente
2

Esto no debería causar ningún problema si está utilizando una CNN. Hice una CNN para reconocer caras, y dado que las caras suelen tener alrededor del 70% del ancho de su altura, utilicé imágenes de entrenamiento de 80x100 píxeles (un poco de ancho adicional en caso de que la cabeza estuviera en ángulo). Sin embargo, tus filtros aún deben ser cuadrados.

Todos los cambios serían que ahora debe realizar un seguimiento de un ancho y una altura para sus mapas de activación / agrupados en lugar de solo un valor que le indique el tamaño. Por ejemplo -

La imagen de entrada de 80 x 100 Aplicar filtro de convolución 5 x 5 proporciona un mapa de activaciones a 76 x 96 Aplicar la agrupación 2 x 2 proporciona un mapa de activaciones agrupadas a 38 x 48

Frobot
fuente