primero, disculpas si esto se ha preguntado antes: busqué por un tiempo en las publicaciones existentes, pero no pude encontrar soporte.
Estoy interesado en una solución para Fedora para OCR de un PDF de varias páginas que no se puede buscar y convertir este pdf en un nuevo archivo pdf que contenga la capa de texto en la parte superior de la imagen. ¿En Mac OSX o Windows podríamos usar Adobe Acrobat, pero en Linux, específicamente en Fedora?
https://snippets.webaware.com.au/howto/pdf-ocr-linux/ parece describir una solución, pero desafortunadamente ya estoy perdido al recuperar la imagen exacta.
command-line
pdf
ocr
ingli
fuente
fuente
Respuestas:
La mejor y más fácil forma de usarlo
pypdfocr
es que no cambia el pdf. pypdfocr es un enlace del módulo de Python aquí.Al final tendrás otro
your_document_ocr.pdf
la forma que lo desee con texto de búsqueda. La aplicación no cambia la calidad de la imagen. Aumenta un poco el tamaño del archivo al agregar el texto superpuesto.Creo que el comando es bastante fácil ya que no necesita ninguna GUI. Quizás instalar pypdfocr sea un poco más detallado:
Actualización 3 de noviembre de 2018:
pypdfocr
ya no es compatible desde 2016 y noté algunos problemas debido a que no se mentained.ocrmypdf
( módulo ) hace un trabajo similar y se puede usar así:Instalar:
o
fuente
Después de saber que tesseract ahora también puede producir archivos PDF con capacidad de búsqueda, encontré el sándwich de script: http://www.tobias-elze.de/pdfsandwich/
después de instalar dependencias (esta podría no ser la lista completa)
Seguí la guía del script para compilar desde la fuente
y esto ahora me permite correr
resultando en un pdf con capacidad de búsqueda.
fuente
Una herramienta fácil disponible en Ubuntu es 'ocrfeeder' que permite la generación de archivos PDF con texto OCR superpuesto en los documentos originales. Hace uso de Tesseract más otros motores de OCR (no estoy seguro de cuál) y también proporciona rotación de imagen / 'unpaper', etc.
fuente
Tuve este mismo problema, así que escribí esto durante el fin de semana. Dale un tiro; funciona muy bien! Es un simple envoltorio alrededor
tesseract
. Se usapdftoppm
para convertir un PDF en un montón de archivos TIFF, luego se usatesseract
para realizar OCR (reconocimiento óptico de caracteres) en ellos y producir un PDF con capacidad de búsqueda como salida. Todos los archivos temporales intermedios se eliminan automáticamente cuando se completa el script.Código fuente: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
Instrucciones para instalar y usar
pdf2searchablepdf
:Probado en Ubuntu 18.04 el 11 de noviembre de 2019.
Instalar:
Utilizar:
Ahora tendrá un pdf llamado mypdf_searchable.pdf , que contiene texto de búsqueda!
Hecho. No tiene dependencias de python, ya que actualmente está escrito completamente en bash.
Referencias o recursos relacionados:
fuente