Estoy intentando, para mis propios fines de aprendizaje, desarrollar una implementación de un algoritmo que enumere los libros, dada la imagen de una estantería como la siguiente:
El primer paso es cortar la imagen en libros individuales.
Mi algoritmo, en Mathematica , es:
img = ColorConvert[Import["http://i.stack.imgur.com/IaLQk.jpg"], "GrayScale"]
- hacer una detección básica de bordes y
elimine el texto e intente mantener las líneas largas
edge = DeleteSmallComponents[EdgeDetect[img, 3],Last[ImageDimensions[img]]/5]
luego elimine las líneas horizontales no deseadas
lines = Sort[ImageLines[img5] /. {{0., _}, {_, _}} -> Sequence[]] Show[img, Graphics[{Thick, Orange, Line /@ lines}]]
Los resultados, sin embargo, son menos que excelentes:
Mis preguntas son:
- ¿Cómo puedo mejorar esto para obtener mejores resultados?
- ¿Hay alguna forma más inteligente de hacer esto?
- ¿Qué tan lejos debo procesar las imágenes para aumentar la precisión en la fase (posterior) de OCR?
- ¿Cómo usar la información de color para mejorar la segmentación?
opencv
computer-vision
image-segmentation
Oren Pinsky
fuente
fuente
Respuestas:
Aquí está el enlace a un trabajo de investigación que intenta hacer lo mismo que usted quería. Te puede ayudar. usando características de imagen También un video genial en youtube
fuente
¿Qué método estás usando para detectar las líneas? ¿Has intentado experimentar con LSD ?
Aquí están los resultados de una prueba rápida que hice con LSD:
La segunda imagen son los resultados con la misma restricción de ángulo pero sin tener en cuenta las longitudes de los segmentos:
Puedes intentar jugar un poco con esto, descubrir cómo elegir los mejores segmentos de línea, extenderlos a líneas y tal vez obtener resultados ligeramente mejores que los que publicaste.
fuente
Puede intentar realizar la detección de bordes en dominios de color individuales y luego fusionarlos, utilizando su método de elección para la detección de bordes.
En comparación con la detección de bordes directamente en la imagen en color, podría producir mejores resultados.
fuente
El documento del enlace roto proporcionado por ISRISH se puede encontrar Combinando características de imagen y texto: un enfoque híbrido para el reconocimiento de lomo de libros móviles , Proc. XIX Conferencia internacional de ACM sobre Multimedia, 2011. También se pueden consultar otros documentos de David Chen et al. , por ejemplo , Seguimiento de activos de bajo costo utilizando teléfonos con cámara que reconocen la ubicación , Proc. SPIE 2010.
fuente