Tengo varios miles de páginas de libros escaneados. Cada página se guarda individualmente como un JPG. La escritura es clara, pero las fuentes varían, y las páginas incluyen imágenes e ilustraciones.
Necesito crear una lista de todas las palabras que aparecen en cada archivo JPG. ¿Existe una herramienta de línea de comando para escanear una imagen que enumere las palabras que aparecen? No necesita tener un escaneo perfecto, solo una estimación.
command-line
ocr
Pueblo
fuente
fuente
Respuestas:
tesseract es probablemente la solución más utilizada aquí. Está disponible en la mayoría de los repositorios de paquetes, por ejemplo,
y se puede usar con
fuente
Instalar
imagemagick
,pdftotext
(que se encuentra en un paquete llamadopoppler-utils
dentro de algunos gestores de paquetes) y ocrmypdf . Este último es un software de OCR de código abierto y actualizado con frecuencia (ocr toma mucha CPU y está configurado para usar todos sus núcleos). Este enfoque es posiblemente excesivo, ya que en realidad trata de asignar una cadena a cada palabra en lugar de simplemente etiquetar una palabra, pero he tenido muchos problemas para encontrar un software OCR de código abierto bueno y fácil de usar en general. Luego, en el directorio donde ha guardado todos sus JPG:fuente
ocrmypdf
hizo mi díaUpscale image file.png en un 480%, cambie a escala de grises, rellene con blanco, agudice y luego extraiga utilizando tesseract OCR. Funciona bien la mayor parte del tiempo para mí, excepto las fuentes muy grandes y el blanco sobre negro. Si las fuentes son muy grandes, solo aumenta el 200% o 300%
El resultado está en file.txt.
fuente
Para los usuarios de Linux, nada funciona tan bien como usar Calibre para convertir pdf a docx. https://calibre-ebook.com/download_linux
fuente
TL; DR
for i in /path_to/*.jpg;do ./myocr.sh $i $(basename $i .jpg);done
Fuente: https://help.ubuntu.com/community/OCR
fuente